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ا مؤلفة في سطور 10 0[ 1212011010 شرس E‏ ۸۱ 


الجزء الأول: نظرة عامة على استكشاف البيانات ree ere‏ نض م 
۱- مقدمة عن البيانات. وأنماط البیانات» واستکشاف البیانات اما رت ۱۳ 
۳۱ 

۳۹ 

۳۹ 

۲-۲-۱ التغیر النوعي مقابل المتغير الرقمي ماه سرت E‏ 

۳-۱ أنماط البيانات التي يمكن استنباطها من خلال استكشاف البيانات EP maonmen‏ 
bled ۱-۳-۱‏ التصنيف والتنبؤ ام یو ٩۳۰‏ 

۲-۳-۱ أنماط الاقتران وأتماط العنقود  Er‏ 

۳-۳-۱ أماط اختزال البيانات 9يو 010212121 a E E‏ 

۶-۳-۱ الأنماط املتطرفة والشاذة E‏ ايض OY E‏ 

2۱۱ ape 8 الأنماط الزمنية والتسلسلية‎ 0-5-١ 

۶-۱ البيانات التدريبية والبيانات الاختبارية . ملس که 
التمارين . وت ل وه ص م ةا دي 00 
الجزء الثاني: خوارزميات لاستكشاف أنماط التصنيف والتتبؤ OV ate tos‏ 
-Y‏ نماذج الانحدار الخطية وغير الخطية کد ی ی اي OT‏ 
۱-۲ ماذج الانحدار الخطي A ed RTT‏ مس ی سس :91 
Y-Y‏ طريقة الربعات الصغرى وطريقة الإمكان الأكبر لتقدير املعلمة ا 
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A ا‎ 1 1 1 1 1 1 1 0 1010 1 1 2 02 02 0 1 0 ae التمارين‎ 


A أشجار القرار والانحدار د01‎ -٤ 

oles ۱-۶‏ شجرة القرار الثنائية وتصنيف البيانات باستخدام شجرة القرار ل N‏ 

ع-1-١ pols‏ شجرة القرار يي لي 12 

E eee شجرة القرار ذات طول الوصف الأصغر‎ ۲-٠-٤ 

۳-۱-۶ طرق انتقاء الانفصال ad‏ ارم وس ی NOM‏ 

6-1-4 خوارزمية بناء شجرة القرار من del‏ إلى أسفل ay‏ 
0-۱-۶ تصنیف البیانات باستخدام شجرة القرار . تمه ایس :۱۵۲۰۰ 
plas ۲-۶‏ شجرة القرار غير الثنائية يح E‏ 
۳-۶ التعامل مع القيم الرقمية والقيم ابلفقودة لمتغيرات الخاصية سن ا 
٤-٤‏ التعامل مع متغير الهدف الرقمي وبتاء شجرة الانحدار معن سم ۱۱۰ 
blza ۵-٤‏ وعيوب خوارزمية شجرة القرار taste Tinea,‏ وس تست ۱۲۱۱ 
1-٤‏ البرمجيات والتطبیقات 000101 سر تا تس N‏ 
التمارين و ی مهد ها Aaa OT‏ 
0- الشبكات العصبية الصناعية للتصنيف والتنيؤ 1 ۱۲۲۱ 
۱-۵ وحدات المعالجة للشبكات العصبية الصناعية eee‏ ل 111 
۲-۵ معماريات الشبكات العصبية الصناعية 000000000000 
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۳-۵ 0 تحديد ER‏ الروابط في الشبكة العصبية الصناعية ذات التغذية 


الأمامية أحادية الطبقة ل لي 
۱-۳-۵ الشبكة العصبية الصناعية ذات التغذية الأمامية أحادية الطبقة 
Ti acl Gas ais (Perceptron)‏ دببب00010101011 E ed feet a‏ 
۲-۳-۵ خصائص وحدة المعالجة ROS OnE ED Oe ae‏ 
۳-۳-۵ الأسلوب البياني لتحديد أوزان الروابط والتحيزات E‏ 
٤-٠-٠٥‏ طريقة elei‏ لتحديد أوزان الروابط والتحيزات 11111111 
۵-۰۳۲۵ عيوب الشبكة العصبية الصناعية ذات التغذية الأمامية أحادية 
الطبقة هم هس مس سح 
۶-0 طريقة التعلم بالتوالد الخلفي للشبکات العصبية الصناعية ذات التغذية 
الأمامية متعددة الطبقات ص ا ا REA N ENEAN‏ 
0-0 الاختيار التجريبى طعمارية الشبكة العصبية الصناعية من أجل ملاءمة 
جيدة للبيانات R ONARE OAA ella te Oana ck‏ 
1-0 البرمجيات والتطبيقات a at alla leans‏ موز ام نس 
التمارین وس ا یس م کر a a‏ 
1- الدعم الآلي المتجه 
1-1 الأساس النظري Joy dé Lua)‏ مشكلة لتحسین at Us gba‏ 55 
1-؟ صياغة الدعم JYI‏ المتجه (SVM)‏ لصنف خطي Jibs‏ قابلة للانفصال 
NE Bam 1 IANAO el Lbs‏ 
۳-۲ التفسير الهندسي لصياغة الدعم JY‏ المتجه (SVM)‏ للمصنف الخطي .... 
۶-7 حل المسألة البرمجية التربيعية مصتف خطي ae ee ee‏ کر 
0-7 صياغة الدعم JYI‏ المتجه Laisa (SVM)‏ خطي وبسألة قابلة للفصل 
بشکل غير خطي RN‏ ی NOE EOE‏ 
1-1 صياغة الدعم JVI‏ المتجه (SVM)‏ ملصنف غير خطي ومسألة قابلة 
للفصل بشکل غير خطي . و ما E‏ 
۷-۲ طرق استخدام الدعم JYI‏ المتجه (SVM)‏ بلسائل التصنیف متعددة 
الفثات a eS‏ و ا اا 
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8-5 مقارنة بين الشيكة العصبية الصناعية (ANN)‏ والدعم الآ dol! Jv‏ 
(SVM)‏ ا ااا ا T PE‏ 
4-7 الرمجیات والتطبیقات es a‏ رک هی یسیع ی 


التمارین . Aaa Dc‏ ا و L‏ 
-V‏ مصنف آقرب - مجاور والتعنقد المراقب EPEAT‏ 
۷ مصتف أقرب 1-مجاور رجا یی که at‏ ی 5غ 
۲۷ التعنقد اطراقب. cs‏ سای ی سای دس تک 
۲-۷ البرمجيات والتطبيقات 1 EPER BAERE‏ 
التمارين ata‏ ا ا ا 
الجزء الثالث: خوارزميات لاستكشاف bL‏ العنقود والاقتران  E‏ 


۱-۸ اجراء التعنقد الهرمي املحتشد . 9ب OEE‏ 21211111111 
Y-A‏ طرق تحدید السافة بين عنقودین يا سا اس ee‏ 
۲-۸ توضيح كيفية إجراء التعنقد الهرمي  tate anit lela ods‏ 


Ae TRE RTT ی‎ CERES IAT الشجرة غير الرتيبة للتعنقد الهرمي‎ E-A 
E ae سس‎ eco EEE البرمجیات والتطبیقات‎ 0-8 


4- التعنقد حول -K‏ متوسط والتعنقد القائم على الكثافة SDN‏ 
۱-٩‏ التعنقد حول -K‏ متوسط estes‏ م e‏ 
۲-۹ التعنقد القائم على الكثافة eee E EE‏ شید 
۲-۹ البرمجيات والتطبيقات tas‏ و te Re a‏ ت 
التمارين لمي ا E‏ ين 
۰- خريطة التنظيم الذاتي ی i rec‏ 


۱-۰ خوارزمية > dls‏ التنظیم الذاي 11111115 221111111111 
۲-۰ البرامج والتطبيقات _ EE AIOE‏ 


۳۹۷ 


YNA oes, 
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التمارين - ی یی ا 


۱- التوزيعات الاحتمالية للبیانات الأحادية المتغير ES RR CE CIEE‏ 
۱-۱ التوزيع الاحتمالي للبيانات الأحادية المتغير وخصائص التوزيع الاحتمالي 
لأماط بيانات متنوعة الس ری Se‏ و ا 
۲-۱ طريقة التمبيز بين أربعة توزيعات احتمالية en ae‏ کت سای 
۲-۱ البرمجيات والتطبيقات .. EN‏ ا ie REE‏ ا 
التمارين . ا i‏ 
-V¥‏ قواعد الاقتران SD. E IC‏ 
١-١‏ تعریف قواعد الاقتران ومقاییس الاقتران 75*78 هس وی 
۲-۳ اكتشاف قاعدة الاقتران EE ES ROA SR ert eee ae IE‏ 
۳-۳ البرمجیات والتطبیقات تک ی مک ERAI‏ 
التمارین حم عم ی دساف اس e a‏ شاب 
۳- شيكة بییز TA RIED E gates Haren‏ 
۱-۳ بنية شبكة بييز والتوزیعات الاحتمالية للمتغيرات tee‏ و 
۲-۳ الاستدلال الاحتمالي 000 0 هکم 
۳-۳ تعلم شبكة بييز 93 | AEE‏ ی 
4-١‏ البرمجيات والتطبيقات 9و0 Sa‏ 
التمارين #3 
الجزء الرابع: خوارزميات استكشاف أنماط اختزال البيانات eat‏ ی 
-٤‏ تحليل المكونات الرئيسية ECO eae Baste‏ يي و 
۱-۶ مراجعة لاحصاءات التغبرات التعددة _ ی aise‏ کم 
۲-۶ مراجعة ro‏ اللصفوفات مت اتکی حور با سس ردان کت 
۳-۶6 تحلیل اطلکونات الرئيسة 8 OEE‏ 
۶-۶ البرمجیات والتطبیقات که ا a i OEE‏ کرت یه 
التمارین . ع ی سا ی ای شم تا کت ساب 
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0- القياس المتعدد الأبعاد رلا م ام ences‏ مس ناس FOO‏ 


۱-۵ خوارزمية القياس اطتعدد الأبعاد OO la eee a‏ 
۲-۵ عدد الأبعاد ta‏ ات N‏ 
۳-۵ قياس الفروقات الفردية لاقياس المتعدد الأبعاد آموزون ~ تنس ۲۷۷۷۰ 
5-0 البرمجيات والتطبيقات YNA E a ai sae Tes,‏ 
التمارين WN e N A RE 1 1 1 1 101 12 1 2 2 2 2 2 2 2 2 eae‏ 
الجزء الخامس: خوارزميات استكشاف الأماط المتطرفة والشاذة PAVO as‏ 
7- مخطط التحكم أحادي oe sh!‏ عي يي وت سس ۰ WAY‏ 
١-7‏ مخططات التحكم لشوارتز E‏ ۲۸۱ 
۲-۲ مخططات تحكم المجموع التراكمي TAN asl asl ogame a‏ 
۲ مخططات التحكم للمتوسط المتحرك الموزون placa ns sll‏ هو ۳۸۲ 
٤-١‏ مخططات تحكم الدرجة التراكمية لي ام 
02-1 منحنى التشغيل التشخيصي لتقييم ومقارنة مخططات التحكم ل Ee‏ 


1-7 البرمجيات والتطبيقات يي ee eee‏ ل E‏ 


التمارين . RECO ENON‏ ا ا د EA‏ 
۷- مخططات التحکم متعددة المتغيرات ار ی ماوت eee oc‏ ۶۱۱۰ 
۱-۷ مخططات التحكم لهوتلینق 12 ما ا ۶۱۱ 
۲-۷ مخططات تحكم المتوسط المتحرك الموزون الأي متعددة المتغيرات ..< ENO‏ 
۲-۷ مخططات تحکم مربع كاي م یی سا ايد ENI‏ 
۷ التطبيقات TC‏ ا OM‏ 
التمارين .. ENS, tid oe ease beep ae ten ar aed‏ 
آلجزء السادس: خوار زميات استكشاف الأماط الزمنية والتسلسلية 00 6۲۲۰ 
۸- تحليل الارتباط الذاتي والسلاسل الزمنية ee en‏ ال “500 
۱-۸ الارتباط الذاتي ‏ ص ا eae‏ ۳۱۲۰ 
۲-۸ السكون واللاسكون کک ee OR tc EE‏ سس ENO.‏ 
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۸- نماذج المتوسط المتحرك GIS‏ الانحدار الخاصة ببيانات السلاسل الساكنة ۶۲۱ 
-3A‏ ۶ خصائص دالة الارتباط الذاتي ودالة الارتباط الذاتي الجزني لنماذج 
المتوسط المتحرك ذاتي الانحدار ییانج يت :۶۱ 
٩-۸‏ تحويل بیانات السلسلة غير الساكنة ونماذج المتوسط المتحرك المتكامل 
ذاتي الانحدار م Sa‏ 
5-4 الرمجیات والتطبيقات 
التمارين م ل ا .510 
5- نماذج سلسلة ماركوف ونماذج ماركوف المخفية SY cia et in‏ 
1-44 نماذج سلسلة ماركوف SA‏ چ ا ند ۶۳۲۰ 
۲-۹ نماذج ماركوف اللخفية ع a‏ او ا قب تو EEV See‏ 
۳-۹ تعلم نماذج ماركوف اللخفية tev‏ 
5-5 البرمجیات والتطبیقات ۲ 
التمارین 87 را ی تس acne cer‏ | 
۰- تحليل EWE 00 A dough!‏ 
۱-۰ تعريف he 00 dough!‏ 6۱۴ 
Y-Y-‏ تحويل dough!‏ لبیانات السلاسل الزمنية مح انا مين EIO‏ 
ely dale] ۲-۲۰‏ السلسلة الزمنية الزمن من معاملات المويجة قمعب تخي ۴۷۳۱۰ 
٤-١‏ البرمجيات والتطبيقات 11111 1 EVA e‏ 
التمارين NN I NT‏ 
اطراجع - References‏ . رهام ما بش se et‏ ۴۶۱ 
قاموس امصطلحات - Glossary‏ - هی دس ا ENR, reste‏ 
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الجدول ۱-۱: مجموعة بيانات البالون 


الجدول 1-۱: مجموعة بيانات اختبارية لنظام تصنيع معين لاكتشاف وتشخيص 
الأعطال 
الجدول ۱-۲: مجموعة بيانات الحلقات الدائرية ذات الأحمال الثقيلة 
الستهدفة المتوقعة من الانحدار الخطي 


الجدول ۱-۳: مجموعة البيانات التدريبية الخاصة بالكشف عن jl‏ نظام 
التصنيع 
الجدول ۲-۳: تصنيف سجلات البيانات في مجموعة البيانات التدريبية الخاصة 
بالكشف عن أعطال نظام التصنیع 


عشوائية المعلومات لمجموعة البيانات الخاصة بالکشف عن 
أعطال نظام التصنيع 
الجدول ۳-۶: الانفصال الثناني لعقدة الجذر والعملية الحسابية لقيمة $o‏ 

جيني مجموعة البيانات الخاصة بالکشف عن أعطال نظام 
التصنيع 
الجدول ۶-ع: الانقسام الثنائي للعقدة الداخلية مع D={2,4,5,9,10}‏ وحساب 
مقياس عشوائية امعلومات لمجموعة البيانات الخاصة بالکشف 
عن أعطال نظام التصنيع 
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ewes‏ شر جيني E‏ البيانات الخاصة بالكشف عن 
ls Jibei‏ التصنيع 

الجدول ۱-۶: تصنيف سجلات البيانات لمجموعة البيانات الاختبارية الخاصة 
بالكشف عن أعطال نظام التصنيع 

الجدول 6-/: الانفصال غير الثنائي لعقدة الجذر وعملية حساب مقياس 
عشوائية المعلومات بلجموعة bly‏ العدسات 

الجدول :۸-٤‏ الانفصال غير GLY)‏ للعقدة الداخلية (۰2 4 ۰6 ۰8 10» ۰12 14ء 
6 18 ۰20 ۰22 24{ وعملية حساب مقياس عشوائية 
المعلومات طلجموعة بیانات العدسات 

الجدول £-4: الاتفصال غير GLU)‏ للعقدة الداخلية (2 ۰6 ۰14۰10 18 22{ 
وعملية حساب مقیاس عشوائية امعلومات مجموعة بیانات 
العدسات. 

الجدول ۱۰-۶: الانفصال غير الثناني للعقدة الداخلية (۰4 ۰8 16612 20« 24{ 
وعملية حساب مقیاس عشوائية العلومات ملجموعة Olly‏ 
سید 

الجدول ۵-ع: دالة خاصة JG‏ وحدة معالجة في شبكة ال ANN‏ ثنائية 
الطبقات لتطبیق الدالة XOR‏ 

الجدول ۱-۷: مجموعة البيانات التدريبية الخاصة بالكشف عن الأعطال بنظام 
التصنيع 

الجدول ۲-۷: مجموعة البيانات الاختيارية الخاصة بالکشف عن الأعطال 
بنظام التصنيع ونتائج التصنيف في الأمثلة ۱-۷ ولا-؟ 
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الجدول ۱-۸: مجموعة البيانات الخاصة باكتشاف أعطال النظام مع تسع 
حالات من الأعطال الآلية الأحادية 


الجدول 4-¥: مجموعة البيانات BUSY‏ أعطال النظام بتسع حالات من 
الأعطال الآلية الأحادية 
الجدول ۱-۱۰: خوارزمية التعلم لخريطة التنظيم الذاتي (SOM)‏ - (إنجليزي 
وعري) 
الجدول ۲-۱۰: مجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع 
بتسع حالات للأعطال الآلية الأحادية 
الجدول ۱-۱۱: قيم درجة حرارة الإطلاق (Launch Temperature)‏ في 
مجموعة البيانات الخاصة بعدد الحلقات الدائرية في مكوك 
الفضاء 
الجدول ۲-۱۱: خليط من نتائج اختبارات الانحراف (Skewness)‏ والنسق 
(Mode)‏ لتمييز التوزيعات الاحتمالية الأربعة 
الجدول ۱-۱۲: مجموعة بيانات اكتشاف أعطال النظام بتسع حالات من 
الأعطال الآلية الأحادية ومجموعات العنصر التي تم الحصول 
عليها من مجموعة البيانات هذه 
الجدول ۲-۱۲: خوارزمية أبريوري (الأسبقية) (Apriori Algorithm)‏ - 
(إنجليزي وعري) 
الجدول ۱-۱۳: مجموعة البيانات التدريبية الخاصة باکتشاف أعطال نظام 


ت 


تصييح 
الجدول ۲-۱۳: ایجاد احتمال Pés x)‏ 


الجدول ۱۲-۱۳: إيجاد احتمال ۴)2 

الجدول ۱۳-۱۳: إيجاد احتمال Pix)‏ 

الجدول ۱-۱۶: مجموعة البيانات الخاصة بالكشف عن الأعطال بنظام التصنيع 
مع متغيرين للجودة 

الجدول ۲-۱۶: الاحتمالات المشتركة والهامشية لمتغيري الجودة 

الجدول 11-10 خوارزمية القياس المتعدد الأبعاد (MDS)‏ - (انجليزي وعر 

الجدول ۲-۱۵: خوارزمية الاتحاد الرنيبة - (إنجليزي وعربي) 

الجدول ۳-۱۵: مجموعة البيانات لنظام اكتشاف الأعطال مع ثلاث حالات من 
الأعطال الآلية الأحادية 

الجدول ۱۵-ع: المسافة الإقليدية لكل زوج من سجلات البيانات 

الجدول 3-11 عیتات من ملحوظات البيانات المرصودة 

الجدول ۲-۱۱: ملحوظات البيانات اطرصودة لدرجة حرارة الإطلاق من 
مجموعة بيانات الحلقات الدائرية ذات الأحمال الثقيلة جنباً إلى 
جنب مع الاحصائیات ملخطط تحكم المجموع التراكمي 
4 ثنائي الجانب 

الجدول ۳-۱۲: ملحوظات البيانات المرصودة لدرجة حرارة الاطلاق مجموعة 
بيانات الحلقات الدائرية ذات الأحمال الثقيلة جنباً إلى جنب 
مع إحصائية EWMA‏ ملخطط Soi‏ 
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الجدول ۶-۱7 : أزواج من معدل الإنذار الخاطئ ومعدل الزيارة الناجحة لقيم 
متنوعة من حد القرار H‏ للخطط تحكم المجموع التراكمي 
GLE CUSUM‏ الجانب في الثال 1-١5‏ 
الجدول ۱-۱۷: مجموعة البيانات لاكتشاف أعطال النظام مع اثنين من 
متغيرات الجودة 7× و و 
الجدول ۱-۱۸: سلسلة زمنية لنموذج الانحدار الذاني (4۸)1 حيث 0.09 = 
xo 2 3‏ وخطأ عشوان 3 
الجدول ۲-۱۸: سلسلة زمنية لنموذج (4/4)1 مع 0.9 = ,8 وخطأ عشوائي e‏ 


v‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


الشكل ۱-۱: خريطة نظام تصنيع معين ذو تسع آلات وتدفقات إنتاج وحدات 
المنتج 
الشكل ۲-۱: النموذج اللائم للعلاقة الخطية الخاصة بدرجة حرارة الإطلاق 

مع عدد الحلقات الدائرية ذات الأحمال الثقيلة في مجموعة 
البيانات الخاصة بالحلقات الدائرية في مكوك الفضاء 
الشكل ۳-۱: التعنقد الخاص ب 10 سجلات من سجلات البيانات في مجمو 
بيانات نظام التصنيع 


الشكل ۱-ع: اختزال البيانات ثنائية الأبعاد إلى مجموعة من البيانات ذات بعد 


واحد 
الشكل :0-١‏ الرسم البياني التكراري لدرجات حرارة الإطلاق في مجموعة بيانات 
مكوك الفضاء 


الشكل ۲-۶: عشوائية ا معلومات 
تصنيف سجل بيانات بدون عطل نظام باستخدام شجرة القرار 
الخاصة بالكشف عن أعطال نظام التصنيع 
تصنيف سجل بيانات لأعطال متعددة الآلات باستخدام شجرة 
قرار خاصة بالكشف عن أعطال نظام التصنيع 
شجرة القرار لمجموعة بيانات العدسات 


شجرة القرار لمجموعة البيانات الخاصة بالبالون 
وحدة معالجة بالشبكة العصبية الصناعية (ANN)‏ 
الشکل ۳-۵: تطبیق الدالة AND‏ باستخدام وحدة معالجة واحدة ۱۳۵ 
الشکل ۵-ع: تطبیق الدالة OR‏ باستخدام وحدة معالجة واحدة 
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الشكل 0-0: معمارية الشبكات العصبية الصناعية ذات التغذية الأمامية 
أحادية الطبقة 


الشكل ۷-۵: شبكات عصبية صناعية ذات تغذية أمامية نائ 
دالة XOR‏ 


الشكل 4-0 JE Ja:‏ جل القرار Ja‏ بين فضا المدخلات 
خلال وحدة المعالجة 


ع ۱۰-۵: : توضيح الطريقة البيانية لتحدید ید آوزان الروابط 


الشكل ۱۲-۵: نقاط البيانات — بع للدالة XOR‏ 

الشكل ۱۳-۵: مجموعة من الأوزان بقيم عشوائية في شبكة ال ANN‏ ذا 
التغذية الأمامية ثنائية الطبقات للدالة XOR‏ 

الشكل ۱۶-۵: أثر معدل التعله 

الشكل 10-0: مثال يوضح نموذجاً غير خطي مفرط في مطابقة البيانات من 
نموذج 

الشكل ۱-۱: الدعم JI‏ المتجه (SVM)‏ لمصنف خطي ومشكلة قابلة للانفصال 
خطيا. (a)‏ حد القرار ذو هامش كبير. (b)‏ حد القرار ذو هامش 
صغير 

الشكل 1-؟: دالة القرار ومتجهات الدعم للمصنف الخطي الخاص بالدعم 
JVI‏ المتجه SVM‏ في المثال ۱-۱ 

الشكل ۳-۰ دالة قرار كثيرة الحدود في فضاء G15‏ الأبعاد 


الشكل ۲-۸: مثال على ثلاث نقاط بیانات والتي تنتج لها طريقة ترابط المركز 
المتوسط شجرة غير رئيسية للتعنقد الهرمي 
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الشكل ۱-۱۰: التصاميم الخاصة بخريطة التنظيم (SOM) IU!‏ بخريطة 
مخرجات (a)‏ أحاديةء (b)‏ ثنائيةء و (c)‏ وثلاثية الأبعاد 


الشكل ۳-۰ العقد الفائزة لنقاط البيانات التسع في المثال ۱-۱۰ باستخدام 

م الوزن أولية 
الشكل ۱-۱۱: المدرج التكراري لبيانات درجة حرارة الإطلاق Launch)‏ 
{Temperature‏ 


الشكل ۲-۱۳: البنية (structure)‏ الخاصة بشبكة jus‏ مجموعة بيانات 
اكتشاف أعطال نظام التصنيع 
الشکل ۲-۱۶: حساب الزاوية بين متجهین / 
الشكل ۱-۱۵: مثال على رسم الجهد الخاص بنتيجة القیاس التعدد الأبعاد 
(۸5)مقابل sus‏ الأبعاد 
الشکل ۱-۱۱: مخطط تحکم المجموع التراکمي CUSUM‏ ثناي الجانب 
لدرجة حرارة الاطلاق في مجموعة بیانات الحلقة الداثرية ذات 
الأحمال الثقيلة 
الشكل ۲-۱۰: أوزان متناقصة أسيا على ملحوظات البيانات المرصودة 
الشكل ۳-۱۱: مخطط تحکم 517344 طراقبة درجة حرارة الإطلاق من 
مجموعة بيانات الحلقات الدائرية ذات الأحمال الثقيلة 
الشكل :٤-١١‏ منحنى التشغيل التشخيصي (ROC)‏ لمخطط تحكم الجموع 
التراكمي GUS CUSUM‏ الجانب في JEL‏ ۱-۱۱ 
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الشكل ۱-۱۷: توضيح للمسافة الإحصائية المقاسة باستخدام إحصاءة هوتلينق 
T‏ وحدود التحكم يلخططات التحكم لهوتلينق *7 ومخططات 


الشكل ۱-۱۸: بيانات سلسلة زمنية يتم توليدها باستخدام نموذج الانحدار 
الذاتي (4۸)1 حيث 0.09 y=‏ و 3 = م وخطأ عشوائي ,© 
الشكل ۲-۱۸: بيانات سلسلة زمنية تم توليدها باستخدام نموذج MAUI)‏ مع 
9 = ,6 وخطأ عشواي © 
الشكل :۲-۱٩‏ أي طريقة من طرق المسار وطريقة المسار الأفضل لنماذج | EY‏ 
ماركوف اللخفية 
الشكل ۱-۲۰: دالة القياس ودالة المويجة dough‏ هار وآثار التمدد (Dilation)‏ 
والتحويل (Shif)‏ 
الشكل ۲-۲۰: عينة من بيانات سلسلة زمنية من (b) Blo (a)‏ عينة من 
سجلات البيانات مأخوذة من الدالة. و(») تقريب الدالة 
باستخدام دالة القياس لمويجة هار 
الشكل ۲-۲۰: توضيح بياني لمويجة dol‏ ومويجة (DoG)‏ اشتقاق مويجة 
قوسشیان, ومويجة داوبیشیز. ومويجة مورليت. (يي, إن» نظم 
الحاسوب والشبكة الامنة: النمذجة والتحليل والتصمیم, ۰۲۰۰۸ 
الشكل VY‏ ص ۲۰۰ حقوق الطبع والنشر لشركة وايلي في سي 
اتش فیرلاغ وشركاه اطحدودة) - (Ye, N., Secure Computer‏ 
and Network Systems:Modeling, Analysis and Design,‏ 


2008, Figure 11.2, p. 200. Copyright Wiley-VCH Verlag 
GmbH & Co. KGaA. Reproduced with permission) 
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تمارین الفصل الأول (مقدمة عن البیانات» وأماط البيانات. واستكشاف but‏ 
تمارين الفصل الثاني (نماذج الانحدار الخطية وغير الخطية) 
تمارين الفصل الثالث (مصنف بييز البسيط) 
تمارين الفصل الخامس (الشبكات العصبية الصناعية للتصنيف والتنبؤ) 
3 


aia 
۳۷۹ 


تمارين الفصل الخامس عشر (القیاس اطتعدد الأبعاد) 
مارین الفصل السادس phe‏ (مخطط التحکم أحادي اممتغير) 


۱ 
q‏ 
۸ 
0 
تمارين الفصل السابع (مصنف أقرب ۸ - مجاور والتعنقٌّد المراقب) 0 
۱ 
o‏ 
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لقد مكنتنا التقنيات الحديثة من جمع كميات هائلة من البيانات في العديد من 
المجالات. eg‏ الرغم من ذلك فإن سرعتنا في اكتشاف معلومات ومعرفة مفيدة من هذه 
البيانات أقل بكثير من سرعتنا في جمع تلك البيانات. وتستلزم عملية تحويل گم هائل من 
البيانات إلى معلومات ومعرفة مفيدة القيام بخطوتين. هما: )١(‏ البحث والتنقيب عن 
الأماط التي تتخذها تلك البيانات و(۲) تفسير أنماط البيانات تلك ضمن نطاق المشكلة 
المستهدفة لتحویل هذه الأماط إلى معلومات ومعرفة مفيدة. 


يوجد العديد من خوار زميات استكشاف البيانات لغرض أتمتة الخطوة الأولى الخاصة 
بالبحث عن أنماط بيانات متنوعة في كم هائل من البيانات. baleg‏ ما يعتمد تفسير أنماط 
البيانات المكتشفة على المعرفة بنطاق المشكلة المستهدفة إضافةٌ إلى القدرة على التفكير 
التحليلي. ویتناول هذا الکتاب التعرف على خوارژمیات الاستكشاف والتنقیب عن البيانات 
التي يمكن استخدامها في استکشاف أنواع مختلفة من Dial‏ البیانات. وسوف هکننا elas‏ 
وتطبيق حُوارزميات استكشاف البيانات من أتمتة ومن ثم تسريع عملية تنفيذ الخطوة 
الأولى doled!‏ بالكشف عن bla)‏ البيانات من كم هائل من البيانات. إن معرفة كيفية 
استنباط أنماط البيانات بواسطة تلك الخوارزميات يعد أمراً شديد الأهمية لتنفيذ الخطوة 
الثانية ألا وهی تحديد معنى أنماط البيانات ضمن نطاق المشكلة النابعة منها ومن ثم 
تحويل أنماط تلك البيانات إلى معلومات ومعارف مفيدة. 


نبذة عن الكتاب: 
تم تنظيم خوارزميات استكشاف البيانات في هذا الكتاب ضمن خمسة أجزاء كل جزء 

منه يستعرض كيفية الاستكشاف عن أحد أنواع أنماط البيانات الخمسة من كم هائل من 
البیانات» وهذه الأنماط هي كما يلي: 

)١‏ أنماط التصنيف والتنبة 

۲ أنماط الاقتران blaly‏ العتقود 

۳ أنماط اختزال البيانات 

ble (€‏ المتطرفة والشاذة 

0( الأهاط الزمنية والتسلسلية 
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يستعرض الجزء الأول من الكتاب هذه rn‏ من 7 b‏ البيانات مع Pa‏ 3 
توضيحية. أما الأجزاء الخمسة الباقية من الكتاب - duly‏ من الجزء الثاني وحتى الجزء 
السادس - فقد عنیت بوصف خوارزميات استكشاف الأنواع الخمسة من أنماط البيانات على 
التوالي. 

وتركز bl‏ التصنيف والتنبؤ على العلاقة بين متغيرات الخاصية ومتغيرات الهدف» وهو 
ما يسمح لنا بتصنيف أو التنبؤ بقيم متغيرات الهدف بناء على قيم متغيرات الخاصية. 
ويةناول الجزء الثاني من الكتاب الخوارزميات التالية والتي تستخدم في استكشاف أنماط 
التصنيف والتنبؤ: 
» غاذج الانحدار الخطية وغير الخطية (الفصل (Y‏ 
٩‏ مصتف بييز البسيط (الفصل ۳) 
© أشجار القرار والانحدار (الفصل €( 
© الشبكات العصبية الصناعية (Artificial Neural Networks - ANNs)‏ 
للتصنيف والتنبؤ (الفصل 0( 
© الدعم الآلي اطتجه (Support Vector Machines - SVM)‏ (الفصل 1( 
* مصنف أقرب ۸ - مجاور والتعنقد المراقب (الفصل (V‏ 
في حين يصف الجزء الثالث من الكتاب خوارزميات استكشاف البيانات الستخدمة 
لاستنباط أنماط الاقتران وأنماط العنقود. حيث تكشف أفاط العنقود عن أوجه التشابه 
والاختلاف بين سجلات البیانات. ویتم استتباط أنماط الاقتران على أساس التلازم في حدوث 
العناصر الموجودة في سجلات البیانات. باختصار, يصف الجزء الثالث خوارزمیات 
استکشاف البیانات التالية للبحث عن bud‏ الاقتران وأنماط العنقود: 
© التعنقد الهرمي (الفصل (A‏ 
© التعنقد حول K‏ من التوسطات والتعنقد على أساس الكثافة (الفصل )٩‏ 
© خريطة التنظیم الذاتي (الفصل ۱۰) 
© التوزیعات الاحتمالية للبیانات أحادية المتغير (الفصل )١١‏ 
© قواعد الاقتران ( الفصل (WY‏ 
© شبکات بییز (الفصل ۱۳) 
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أما isid‏ اختزال البیانات. فهي تبحث عن عدد قليل من المتغيرات التي يمكن 
استخدامها لتمثيل مجموعة من البيانات GIS‏ عدد أكبر بكثير من اكرات وحيث إن 
المتغير الواحد يعطي بعداً واحدأ من البیانات» فان أنماط اختزال البيانات تسمح بتمثيل 
مجموعة من البيانات موجودة في فضاء متعدد الأبعاد في فضاء أقل من الأبعاد. یصف 
الجزء الرابع خوارزميات استكشاف البيانات التالية للبحث عن blal‏ اختزال البيانات: 


© تحلیل المكونات الرئيسية (الفصل (VE‏ 
* القياس المتعدد الأبعاد (الفصل 10( 
وبالنسبة للقيم المتطرفة والشاذة. فهي نقاط البيانات التي تختلف بشكل كبير عن 
التعريف العادي واطعياري للبیانات» وهناك طرق عديدة لتعريف وإنشاء التعريف المعياري 
للبيانات. يصف الجزء الخامس خوارزميات استكشاف البيانات التالية لكشف وتحديد القيم 
المتطرفة والشاذة: 
© مخطط التحكم أحادي المتغير (الفصل (YT‏ 
bbas ©‏ التحكم متعدد المتغيرات (الفصل ۱۷) 
من ناحية آخری» تكشف الأنماط الزمنية والتسلسلية LAS‏ تغير أنماط البيانات على مر 
الزمن. ويصف الجزء السادس خوارزميات استكشاف البيانات التالية للبحث عن BU‏ 
التسلسلية والزمنية: 
٠‏ تحليل الارتباط الذاتي وسلاسل الزمن (الفصل (XA‏ 
© نماذج سلسلة ماركوف ونماذج ماركوف المخفية (الفصل )۱٩‏ 
© تحليل المويجات (الفصل ۲۰) 


المزايا الرئيسة لهذا الکتاب: 

كما أوضحنا سابقاً تُعد عملية الاستكشاف والتنقيب عن أنماط البيانات في كم هائل 
من البيانات هي فقط الخطوة الأولى لتحويل البيانات إلى معلومات ومعرفة مفيدة ضمن 
نطاق المشكلة المستهدفة. ويجب أن يتم فهم وتفسير أنماط البيانات ضمن نطاق المشكلة 
الخاصة بها من أجل أن تكون مفيدة وذات معنى. ولتطبيق خوارزمية استكشاف البيانات 
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۳ من فهم وتفسير 7 البيانات الناتجة من تطبيق الخوارزمية. nae‏ إلى فهم 
جانبین مهمين من الخوارزمیة: 


)١‏ الفاهیم النظرية التي ترسخ الأساس النطقي لتبریر وضع عناصر خوارزمية 
استکشاف البیانات معاً بطريقة محددة للبحث عن نوع معين من نمط البیانات. 
(Y‏ الخطوات التشغيلية والتفاصیل الخاصة بكيفية معالجة خوارزمية استکشاف 
البیانات لکم هائل من البیانات من أجل الحصول على أنماط البیانات. 

يهدف هذا الکتاب إلى تقديم کل من الفاهیم النظرية والتفاصیل التشغيلية 
لخوارزمیات استکشاف البیانات في كل فصل بطريقة LEG‏ بذاتها ومتكاملة مع إعطاء أمثلة 
من البيانات الصغيرة. مما سيعمل على تمكين القارئ من فهم الجوانب النظرية والعملية 
لخوارزميات استكشاف البيانات» وتنفيذ الخوارزميات يدوياً من أجل الوصول إلى فهم شامل 
لأنماط البيانات الناتجة عن الخوارزميات. 

يغطي هذا الكتاب خوار زميات استكشاف البيانات الموجودة بشكل شائع في الدراسات 
والمؤلفات الخاصة باستكشاف البيانات le)‏ سبيل JGL‏ خوارزمية أشجار القرارء 
وخوارزمية الشبكات العصبية الصناعية» وخوارزمية التعنقّد الهرمي)» كما يغطي أيضاً 
خوارزميات استكشاف البيانات التي Sole‏ ما يتم اعتبارها صعبة الفهم (علی سبيل المثاله 
خوارزمية نماذج ماركوف الخفية, وخوارزمية القياس التعدد الأبعاد. وخوارزمية الدعم 
الآلي التجه, وخوارز زمية تحليل المويجات). كل خوار زميات استكشاف البيانات في هذا 
الكتاب قد تم وصفها بطريقة كاملة وقائمة بذاتهاء ومدعمة بالأمثلة التوضيحية. وبالتالي» 
Of‏ هذا الكتاب يتيح للقراء تحقيق نفس المستوى من الفهم الدقیق» وسوف یوفر نفس 
القدرة من التنفيذ اليدوي بغض النظر عن مستوى صعوبة خوارزميات استكشاف البيانات. 

بالنسبة لخوارزميات استكشاف البيانات في كل فصلء يتم سرد قائمة من حزم البرمجيات 
التي تدعمها. ويتم Lad‏ إعطاء بعض التطبيقات لخوارزميات استكشاف البيانات مع 
امراجع. 
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المساندة التعليمية: 


تتضمن خوارزميات استكشاف البيانات المشمولة في هذا الكتاب مستويات مختلفة من 
الصعوبة. فالأستاذ الذي يستخدم هذا الكتاب على أنه كتاب تعليمي طقرر دراسي عن 
استكشاف البيانات قد يختار الموضوعات المراد تغطيتها بناء على مستوى المقرر ومستوى 
صعوبة موضوعات الكتاب. Pees‏ موضوعات CUS‏ في الفصلين ۱ و۲ (الأجزاء ۱-۲ و۲-۲ 
فقط). والفصول ۳ ۶ ۷ ۸ ٩‏ (الجزء ۱-۹ فقط) والفصول ۱۲ 15 (الأجزاء من 1-١5‏ إلى 
۲-۲ فقط) والفصل ۱٩‏ (الجزء ۱۱۹ فقط) التي تغطي الأنواع الخمسة من أنماط 
البیانات» مناسبةٌ کمقرر خاص بدرجة البکالوریوس» وما تبقی من ابلوضوعات piss‏ مناسباً 
ملقرر في مستوی الدراسات العلیا. 
وتحتوي نهاية كل فصل على مجموعة من التمارین ذات العلاقة با موضوعات المطروحة 
في كل فصل كما یتوافر موقع إلكتروني خاص بالکتاب يحتوي على المواد التعليمية ال مساندة 
التالية والتي يمكن الحصول عليها من الناشر: 
* دليل حلول التمارين 
© العروض التقديمية للمحاضرات» والتي تشمل الخطوط العريضة للموضوعات 
والأرقام. والجداولء والمعادلات الرياضية 
جدير SUL‏ أنه يتم استخدام منتج ماتلاب MATLAB®‏ لصياغة المعادلات الرياضية في 
هذا الكتاب. وماتلاب MATLAB®‏ هي علامة مسجلة لشركة مائوورکس MathWorks‏ 
وللحصول على معلومات عن منتج MATLAB®‏ يمكن التواصل مع العنوان التالي: 
Math Works, Inc.‏ 
Apple Hill Drive‏ 3 
Natich, MA 1760 - 2098 - USA‏ 
Tel; 508 - 647 - 7000‏ 
Fax: 508 - 647 - 7001‏ 


Email: info@mathworks.com 
Web: www.mathworks.com 
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Sol‏ أن أشكر عائلتي» بایجون وأليس» لحبهم و تفهمهم و دعمهم غير المحدود. وأود أن 
أعرب عن تقديري البالغ لهم لتواجدهم دائماً إلى جانبي Ning‏ من دواعي سروري حقاً. 

وأعرب عن امتناني إلى الدكتور جافريل سالفيندف, الذي كان مرشدي وصديقي, 
لتوجيهه لي في مسيرتي الأكادهية. كما آعرب عن شكري للدكتور غاري هوغ, الذين ساندی 
في نواح كثيرة كرئيس للقسم في جامعة ولاية أريزونا. 

وأود أيضاً أن أشكر سيندي کاریلی. كبيرة المحررين في دار الطباعة سي آر سي (CRC)‏ 
إذ بجهودها وطبيعتها المستجيبة واطساندة و المتفهمة و الداعمة صدر هذا الكتاب , لقد 
كان العمل معها فرصة عظيمة. والشكر موصول Lad‏ إلى كاري بدفك.كبير منسقي المشاريع 
في دار الطباعة سي أر سيء وإلى جميع العاملين في الدار الذين ساعدوني في نشر هذا الكتاب. 


نونغ يي هي أستاذة في كلية الحاسبات وا معلومات» وهندسة نظم القرار, جامعة ولاية 
أريزوناء مدينة تيمب e‏ أريزونا. نونغ يي حاصلة على درجة الدكتوراه في الهندسة الصناعية 
من جامعة بوردوء لفاييت الغربية بولاية اندياناء و ماجستير في علوم الحاسب الآلي من 
الأكاديمية الصينية للعلوم. مدينة بکین» جمهورية الصين الشعبية, وعلى درجة البكالوريوس 
في علوم الحاسب JII‏ من جامعة بکین. مدينة بكينء جمهورية الصين الشعبية. 

و تشمل إصدارتها كتيب استكشاف البيانات والأنظمة الآمنة للحواسيب والشبكات: 
النمذجة» والتصميم. وقد نشرت أيضأ أكثر من ۸۰ ورقة عمل في مجلات علمية في مجالات 
استكشاف البیانات» وتحليل البيانات الإحصائية والنمذجة. وأمن الحاسوب والشبكات. 
وتحسين جودة الخدمة. ومراقبة الجودة, والتفاعل بين الإنسان والحاسب YII‏ والعوامل 
البشرية. 
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الجزء الأول 
نظرة dole‏ على استكشاف البيانات 


An overview of Data Mining 


hl‏ غامة de‏ علي سكلف : البيائات 


-١‏ مقدمة عن البيانات 7 البيانات واستكشاف البيانات 
Introduction to Data, Data Patterns, and Data Mining‏ 


يهدف استكشاف البيانات إلى الكشف عن أنماط البيانات المفيدة من بين كميات هائلة 
من البيانات. في هذا الفصل, سنوضح بعض الأمثلة لمجموعات من البيانات» واستخدام هذه 
ا مجموعات في توضيح أنواع مختلفة من متغيرات البیانات» bleis‏ البيانات التي يمكن 
اكتشافها من البيانات. كما سنتناول في هذا الفصلء ولكن باختصار. خوارزميات استكشاف 
البیانات حتى نعطي dab‏ عن كل نوع من أنماط البيانات. علاوةٌ على ذلك» ستتناول أيضاً 
مفهومي البيانات التدريبية والبيانات الاختبارية. 


١-١‏ أمثلة عن مجموعات البيانات الصغيرة 
(Examples of Small Data Sets):‏ 

لقد مكنت التقنيات الحديثة كأجهزة الحاسوب وأجهزة الاستشعار من أن يتم تسجيل 
وتخزين وحفظ العديد من الأنشطة مع مرور الزمن. مما نتج عنه تراكم كميات هائلة من 
البيانات في العديد من المجالات. في هذا الجزء» سنطرح بعض الأمثلة عن مجموعات البيانات 
الصغيرة التي سيتم استخدامها في هذا الكتاب لشرح مفاهيم استكشاف البيانات 
والخوارزميات. 

ويوضح الجداول ۱-۱ وحتى الجدول ۳-۱ ثلاثة أمثلة لجموعات بيانات صغيرة تم 
الحصول عليها من مركز (UCI-Machine Learning Repository)‏ ال متخصص 3 
التعلم الآلي والأنظمة الذكية )2010 (Frank and Asuncion,‏ مجموعة بيانات 
البالون الموضحة في الجدول ۱-۱ تحتوي على سجلات بيانات لعدد 16 حالة للبالونات. لكل 
بالون أر بع سمات هي: اللون (Color)‏ والحجم (SIZE)‏ والفعل (ACH)‏ والعمر (Age)‏ 
وتحدد سمات البالون هذه ما إذا كان البالون منفوخاً أم Unflated) Y‏ في حين يوضح 
الجدول ۲-۱ مجموعة البيانات الخاصة بتآکل الحلقات الدائرية في مكوك فضاء حيث 
يحتوي الجدول على سجلات البيانات الخاصة ب 23 رحلة من رحلات مكوك الفضاء 
تشالنجر. وهناك أر بع سمات لكل رحلة هي: عدد الحلقات الدائرية Number of O-)‏ 
(Rings‏ درجة حرارة الإطلاق بالفهرنهايت (Launch Temperature)‏ ضغط فحص 
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الجزه الأول 


التسرب 75 E Giet‏ والترتیب الزمني للرحلة ( 7 و 
(of Flight‏ والتي يمكن استخدامها لتحدید عدد من الحلقات الداثرية ذات الأحمال 
الثقيلة (Number of O-Rings with Stress)‏ آما مجموعة البیانات ا موضحة في 
الجدول ۲۳-۱ فهي تحتوي على سجلات البیانات لعدد 24 حالة من العدسات لتحدید 
الملائم منها للمریض. هناك آربع Clow‏ للمریض لكل حالة منها هي: العمر (Age)‏ 
والتشخیص البصري (Spectacle Prescription)‏ واللابخرية (Astigmatic)‏ 
ومعدل خروج الدموع (Tear Production Rate)‏ والتي مکن استخدامها لتحدید 
نوع العدسات التي تلائم المريض. 

ويوضح الجدول ۶-۱ مجموعة البيانات الخاصة باكتشاف الأعطال وتشخيصها في نظام 
تصنیع محين )1993 (Ve et al.,‏ يتكون a‏ التصنيع من تسع آلات. الآلة الأولى MI‏ 
الآلة الثانية UW M2‏ التاسعة MI‏ تقوم بمعالجة وحدات المنتج. ویبین الشكل ١-١‏ 
تدفقات عملية الانتاج التي يتم تنفيذها من خلال الآلات التسع. 
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نظرة عامة على استكشاف البيانات 


الجدول ( )١-١‏ 
مجموعة بيانات البالون 


Attribute Variables - متغيرات الخاصية‎ : 


Instance‏ اللون الحجم الفعل العمر خاصية متفوخ 

Inflated Age Act Size Color 
T - صحيح‎ Adult- راشد‎ Stretch- ممتد‎ Small- صغير‎ Yellow - أصفر‎ 1 
T - صحيح‎ Child - Jab Stretch- ممتد‎ Small- صغير‎ Yellow - أصفر‎ 2 
T - راشد - ۸۵ صحيح‎ Dip- متكمش‎ Smal- صغير‎ Yellow - أصفر‎ 3 
T - صحيح‎ Child - طقل‎ Dip- منکمش‎ Smal- صغير‎ Yellow- أصفر‎ 4 
T - صحيح‎ Adult - راشد‎ Stretch - ممتد‎ Large - كبير‎ Yellow - أصفر‎ 5 
F - خاطی‎ Child - Jb Stretch - ممتد‎ Large- كبير‎ Yellow - اصفر‎ 6 
F- خاطیٰ‎ Adult - راشد‎ Dip- منکمش‎ Large- کبر‎ Yellow - أصفر‎ 7 
F - خاطئ‎ Child - طفل‎ Dip- منکمش‎ Large- كبير‎ Yellow - أصفر‎ 8 
T - صحيح‎ Adult - راشد‎ Stretch- ممتد‎ Small- صغير‎ Purple ٠ أرجواني‎ 9 
F - ¢ ble Child - Jab Stretch - ممتد‎ Small- صغير‎ Purple - أرجواني‎ 10 
۴ - خاطی‎ Adult - متکمش - ما٥ راشد‎ Small- صغير‎ Purple - أرجواني‎ 11 
F - خاطن‎ Child - طفل‎ Dip- منكمش‎ Small- صغير‎ Purple - أرجواني‎ 12 
T- صحيح‎ Adult - راشد‎ Stretch - tion Large- كبير‎ Purple - أرجواني‎ 13 
F - خاطن‎ Child - طقل‎ Stretch- ممتد‎ Large- كبير‎ Purple - أرجواني‎ 14 
F - خاطیٰ‎ Adut -a54 Dip- کیير - 12:86 منكمش‎ Purple- أرجواني‎ 15 
F - خاطن‎ Chid - طفل‎ Dip- منكمش‎ Large- »S Purple - أرجواني‎ 16 


هناك بعض وحدات النتج التي تمر خلال الآلة الأولى MI‏ ول والآلة الخامسة MS‏ 
Lit‏ والآلة التاسعة da MI‏ وبعض وحدات quill‏ تمر خلال الآلة الأولى Vol MI‏ والآلة 
الخامسة 45 dab‏ والآلة السابعة dot M7‏ وهکذا. هناك تسعة متغيرات» Xj‏ بحيث. 
9 ,لت والتي تمثل جودة وحدات المنتج بعد مرروها خلال التسع آلات. 
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الجزء الأول 


إذا ما اجتازت وحدات المنتج فحص الجودة بعد مرورها DVL‏ رقم d‏ فان المتغير x;‏ يأخذ 
قيمة صفر؛ وخلاف ذلك» فان x;‏ يأخذ قيمة واحد. هناك المتغير نل الذي هثل ما إذا كان 
النظام به أعطال أم لا. ويكون النظام به أعطال إذا كان أي من التسع آلات بها عطل. إذا م 
يكن في النظام lel‏ فإن نز تأخذ قيمة صفر؛ وخلاف ذلك فان y‏ تأخذ قيمة واحد. هناك 
تسعة متغیرات :نل بحيثه 9,.... ,4-1,2. والتي تمثل ما إذا كانت التسع آلات بها أعطال 
ol‏ لاء على التوالي. إذا لم يكن لدى الآلة 7 أي عطلء فان رر تأخذ قيمة صفر؛ وخلاف ذتك, 
تأخذ yi‏ قيمة واحد. وتُستخدم البيانات الخاصة بالكشف عن الأعطال في تحديد ما إذا كان 
أو م يكن لدى النظام أعطال استنادا إلى معلومات مستوى الجودة. تستلزم مشكلة الكشف 
عن الأعطال استخدام متغيرات الجودة التسعة Xj‏ بحیث. 9,.... ,2 ,1= ومتغير أعطال 
النظام y‏ مشكلة تشخيص الأعطال هي أن تقوم بتحديد الجهاز الذي يحتوي على أعطال 
بناء على معلومات مستوى الجودة. تستلزم مشكلة تشخيص الأعطال استخدام متغيرات 
الجودة التسعة Kj‏ بحیث» d=1,2,....,9‏ ومتغيرات أعطال الجهاز التسعة Yj‏ بحيثء 
9 ...۰ ,3<,2. وقد يكون هناك واحدة أو أكثر من الآلات بها Jhe‏ في نفس الوقت» وقد 
لا تكون هناك أي أعطال بالآلات جميعها. على سبيل JEBI‏ في السجل الأول الذي فيه الآلة 
الأولى MI‏ بها عطل ya yı P)‏ تأخذ قيمة واحد, ودل وونل V49‏ وونل P79 Yos‏ 
yoo Vas‏ تأخذ dad‏ صفر) ووحدات المنتج بعد ال مرور على الآلات الأولى MI‏ والخامسة 
5 والسابعة M7‏ والتاسعة MO‏ قد فشلت في فحص الجودة حيث أخذت متغيرات 
الجودة ر X79 X59‏ ووك قيمة واحد. ومتغيرات الجودة الأخرى. X69 X49 X39 X2‏ 
X39‏ أخذت قيمة صفر. 
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نظرة عامة على استكشاف البيانات 


CE PST ان ل ی‎ oh EN A OTIS Tee SO TRL و ای‎ TW LAS REN Pa PRE acl Ti AD LA ETI نبال‎ ak TST مق‎ LNT | PSE TELLS RE RATTE SYS ETL 


الجدول (۲-۱) 
مجموعة البیانات الخاصة بالحلقات ds Hall‏ في مکوك الفضاه 


متغير الهدف 
متغبرات الخاصية - Target Attribute Variables‏ 
Variable‏ 

عدد الحلقات 

رقم الحالة | عدد الحلقات ‏ درجة حرارة ضغط فحص الترتيب ga‏ الدائرية ذات 

Instance‏ الدائرية الاطلاق التسرب ۳ aoe‏ الأحمال الثقيلة 

Number of Order of Leak-Check Launch Number of 

oe Flight Pressure Temperature O-Rings 

with Stress 
0 1 50 66 6 1 
1 2 50 70 6 2 
0 3 50 69 6 3 
0 4 50 68 6 4 
0 5 50 67 6 5 
0 6 50 72 6 6 
0 7 100 73 6 7 
0 8 100 70 6 8 
1 9 200 57 6 9 
1 10 200 63 6 10 
1 11 200 70 6 11 
0 12 200 78 6 12 
0 13 200 67 6 13 
2 14 200 53 6 14 
0 15 200 67 6 15 
0 16 200 75 6 16 
0 17 200 70 6 17 
0 18 200 81 6 18 
0 19 200 76 6 19 
0 20 200 79 6 20 
0 21 200 75 6 21 
0 22 200 76 6 22 
1 23 200 58 6 23 
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الجزء الأول 


CREST EC و سل ید‎ TATE سح جات اس یت‎ RR | TLL ET POL IS SE TT PLEAS LEELA REE POP TES POA RTA 


۲-۱ أنواع متغيرات البیانات (Types of Data Variables)‏ 
تؤثر أنواع متغيرات البيانات في ماهية خوارزميات استكشاف البيانات التي هكن 


تطبيقها على مجموعة معينة من البيانات. هذا الجزء يوضح الأنواع المختلفة طتغیرات 
البیانات. 


۱-۲-۱ متغير الخاصية مقابل المتغير الهدف 
(Attribute Variable versus Target Variable):‏ 
قد يكون طجموعة بيانات متغيرات خاصية (Attribute Variables)‏ ومتغيرات 
هدف (Target Variables)‏ حیث يتم استخدام قيم متغيرات الخاصية لتحديد قيم 
متغيرات الهدف. وهکن أيضأ أن يطلق على متغيرات الخاصية, ومتغيرات الهدف التغرات 
المستقلة, والمتغيرات التابعة» على التوالي, لتعكس أن قيم المتغيرات الهدف تعتمد على قيم 
متغيرات الخاصية. في مجموعة البيانات الخاصة بالبالون المذكورة في الجدول ۱-۱ متغيرات 
الخاصية هي: اللون (Color)‏ والحجم (SIZE)‏ والفعل (ACE)‏ والعمر (Age)‏ ويوضح 
المتغير الهدف حالة البالون (منفوخ أو غير منفوخ). 


is ARETE SERS At ete mers cost AET TAAN نا تس ل‎ ewe ê وات‎ Se تع همد بر‎ ae es r a Rt TS لسن‎ a 
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نظرة عامة على استكشاف البيانات 


الجدول (۲-۱) 
مجموعة البيانات الخاصة بالعدسات 


5 - متفر الهدف - 
متغيرات الخاصية - en $ Attributes‏ 
arget‏ 


KE‏ معدل خروج 
33 العمر التشخيص البصري _ اللابؤرية الدموع 
Tiar Pesce Spectacle A 9‏ العدسات 
igmatic Pipe ge‏ 
Lenses Production Prescription‏ 
Rate‏ 
l‏ شاب pad‏ النظر لا منخفض غير اللاصقة 
Noncontact Reduced No Myope Young‏ 
3 شاب فصر النظر لا طبيعي اللاصقة الطرية 
Soft contact Normal i M ope- Young‏ 
3 شاب pes‏ النظر منخفض غير اللاصقة 
Noncontact DENEA 7 M ope. oun‏ 
4 قصر النظر طبيعي اللاصقة الصلبة 
Hard contact Normal 2 Myope vo‏ 
5 بعد النظر منخقض غير اللاصقة 
Noncontact Hypermetrope‏ 
6 بعد النظر اللاصقة الطرية 
Soft contact sr H ypermerrope vo‏ 
7 غير اللاصقة 
Noncontact‏ 
5 اللاصقة الصلبة 
Hard contact‏ 
9 غير اللاصقة 
Noncontact‏ 
10 اللاصقه الطرية 
Soft contact‏ 
i‏ غير اللاصقة 
Noncontact‏ 
3 اللاصقة الصلبة 
Hard contact‏ 
غير اللاصقة 
i 13‏ 
Noncontact‏ 
7 اللاصقة الطرية 
Soft contact‏ 


TT‏ نت 
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جر + جر جح و خن لياس ووه تبن A‏ اعد سس ma a‏ و و | 


الجزء الأول 


Spectacle 


Astigmatic Prescription 


Production 
Rate 


بعد النظر 


Hypermetrope 


اللاصمّة الطرية 
Soft contact‏ 


الشيخوخة 


Presbyopic 


Noncontact Presbyopic 


وفي مجموعة البيانات الخاصة بمكوك الفضاء والمذكورة في الجدول ۰۲-۱ فان متغيرات 
الخاصية هي: عدد الحلقات الدائرية (Number of O-rings)‏ ودرجة حرارة الإطلاق 
(Launch Temperature)‏ وضغط فحص التسرب (Leak-check Pressure)‏ 
والترتيب الزمني للرحلة (Temporal Order of Flight)‏ والتغير الهدف: هو عدد 
الحلقات الدائرية ذات الأحمال الثقيلة (Number of O-rings with stress)‏ 
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۱ (الآلة‎ 
Faulty 
(Machine 


(System 
Fault), y 


عطل النظام 
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Instance 


Machine Fault 3Y Jhs 


رقم الحالة 


Quality of Parts — gut) جودة وحدات‎ 


متغیرات الخا 


Attribute Variables — صة‎ 


Target Variables— متغيرات الهدف‎ 


مجموعة البيانات 


۰ 


الخاصة باکتشا 


ف الأعطال وتشخیصها في نظام 3 1 


معان 


الجدول (۱- £( 


الجزء الأول 


الشكل( 3-3( 
خريطة نظام تصنيع معين ذو تسع آلات وتدفقات إنتاج وحدات المنتج 


O00 
OOO 
موه‎ 


قد يكون لبعض مجموعات البيانات متغيرات خاصية فقط. على سبيل ابمثالء قد تحتوي 
بیانات العمليات الخاصة بشراء العملاء على العناصر والمواد التي تم شراؤها من قبل كل 
عميل في متجر lo‏ حيث تمثل العناصر التي تم شراؤها متغيرات الخاصية. في كثير من الأحيان 
تكون الفائدة من بيانات عمليات شراء العملاء هي معرفة العناصر التي يتم شراؤها معأ 
من قبل العملاء. ويمكن استخدام أنماط اقتران العناصر (أو متغيرات الخاصية) هذه لإعادة 
تصميم تخطيط المتجر الذي يبيع العناصر وكذلك مساعدة العملاء على التسوق مستقبلاً 
إن الاستكشاف والبحث في مثل مجموعة البيانات هذه يستلزم فقط متغيرات الخاصية دون 
متغيرات الهدف. 
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دك عامة بعلن ا البيانات 


۲-۲-۱ المتغير النوعي مقابل المتغير الرقمي 


(Categorical Variable versus Numeric Variable): 


هكن أن يكون للمتغير قيم نوعية أو قيم رقمية. على سبيل JGL‏ جميع متغيرات 
الخاصية والمتغير الهدف في مجموعة البيانات الخاصة بالبالون تأخذ قيماً نوعية. فالقيمتان 
الخاصتان بخاصية اللون هما: الأصفر والأرجواني تعطيان نوعيتين مختلفتين من اللون. وفي 
المثال الآخر الخاص ببيانات الحلقات الدائرية طکوك القضاء فإن جميع متغيرات الخاصية 
ومتغيرات الهدف تأخذ قيماً رقمية. على سبيل JELI‏ قيم متغير الهدف. ۸۵ dg‏ و2 تمثل 
عدد الحلقات الدائرية ذات الأحمال. ويمكن استخدام قيم المتغير الرقمي لقياس حجم كمية 
الاختلافات بين القيم الرقمية. على سبيل JEL‏ قيمة عدد 2 من الحلقات الدائرية أكبر 
بمقدار وحدة واحدة من قيمة 1 حلقة dy Slo‏ وأكبر بمقدار وحدتين من قيمة "صفر" حلقة 
دائرية. وعلى الرغم من ذلك» فإن مقدار كمية الفروقات لا يمكن الحصول عليها من قيم 
المتغير النوعي. على سبيل اللثال» على الرغم من أن اللونين الأصفر والأرجواني يظهران LI‏ 
الفرق جلياً بين لونین. فمن غير المناسب تحديد مقياس كمي لذلك الفرق. مثال آخرء الطفل 
(Child)‏ والراشد (Adult)‏ هما فئتان نوعيتان مختلفتان خاصة بالعمر. فعلى الرغم من أن 
كل شخص له / لها عدد من السنوات العمرية, لا LSe‏ استخدام الفنتين العمريتين "طفل" 
و"راشد" للقول بأن "الطفل" أقل عمراً من "الراشد" بمقدار 20 أو 30 أو 40 سنة. 
وتنقسم التغیرات النوعية إلى نوعين فرعيين من امتغیرات: المتغيرات الاسمية 
(Nominal Variables)‏ وللتغرات الترتيبية Tan et al, ) (Ordinal Variables)‏ 
2006( هكن فرز وترتيب القيم الخاصة بالمتغير الترتيبي» في حين لا هكن النظر فقط إلى 
قيم المتغيرات الاسمية على أنها هي ذاتها أو أنها مختلفة. على سبيل المثال» ثلاث قيم للعمر 
(طفل, راشد. كبير) تجعل هذا المتغير متغيراً ترتیبیً لأنه هكن ترتيب القيم (طفلء راشد, 
كبير) بشكل متصاعد عمرياً. ومع ذلك لا يمكننا القول Gb‏ فارق العمر بين الطفل والراشد 
أكبر أو أصغر من فارق العمر بين الراشد والکبی, OV‏ القیم Jab)‏ راشد. کبیر) هي قیم 
نوعية ولیست قیماً رقمية. وهو ما يعني» al‏ على الرغم من أن قيم المتغير الترتيبي يمكن 
فرزها وترتیبها» فإن هذه القیم نوعية. وفروقها الکمية غير متاحة. اللون هو متغیر اسمي 
حيث إن اللونين الأصفر والأرجواني هما قیمتان مختلفتان» ولکن ترتیب ile‏ القیمتن قد 
يكون غير Gd‏ معنى. يوجد نوعان فرعيان للمتغيرات الرقمية وهما: متغيرات الفترة 
(interval Variables)‏ واملتغيرات النسبية (Tan et al, 2006) (Ratio Variables)‏ 
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الجزه ۰ الأول 


الفروق الكمية بين قيم متغير الفترة (على سبيل JELI‏ درجة حرارة a‏ هي ذات 
معنی. في حين أن WS‏ من الفروقات الكمية والنسب بين قيم المتغير النسبي (على سبيل 
المثال» عدد الحلقات الدائرية ذات الأحمال الثقيلة) هي ذات معنى. 


ورسمياء نرمز بلتغيرات الخاصية ب: Xi, dp‏ ومتغيرات الهدف ب: ولز,.... رز ولتكن × 
Eh Xp)‏ = ولور .... ,ملم مز . حیث تشر الحالات (أو أمثلة البيانات - (instances‏ 
ومشاهدات البيانات المرصودة (أو اللحوظات اللرصودة - (Observations‏ الخاصة ب ,... XJ,‏ 
oes Ya‏ ,و ووک إلى سسجلات البيانات» Xp Vir vey Ya)‏ و..» (En‏ 


۳-۱ أنماط البيانات التي هكن استنباطها من خلال استكشاف البيانات 
(Data Patterns Learned through Data Mining):‏ 
فيما يلي الأنواع الرئيسة لأماط البيانات التي يتم اكتشافها في مجموعات البيانات 
باستخدام خوارزميات استكشاف البيانات: 
o‏ أنماط التصنيف والتنبة 
bui e‏ الاقتران وأنماط العنقود 
e‏ أنماط اختزال البيانات 
© الأنماط المتطرفة والشاذة 
bie ©‏ الزمنية والتسلسلية 
وسيتم وصف كل نوع من أنماط البيانات المذكورة أعلاه في الأجزاء التالية. 


:(Classification and Prdiction Patterns) التصنيف والتنبؤ‎ blei ۱-۳-۱ 

(Xr ..., Xp) أنماط التصنيف والتنبؤ في استنباط العلاقات بين متغيرات الخاصية,‎ pastus 
(Xr ..., والدعومة بمجموعة معطاة من سجلات البیانات»‎ (Vy, ..., ومتغيرات الهدف (م‎ 
حيث تسمح أنماط التصنيف والتنبؤ بتصنيف أو التنبؤ بقيم المتغيرات الهدف‎ Xp Yh ..., Ya) 
باستخدام فيم متغيرات الخاصية.‎ 
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نظرة عامة ة على استكشاف البیانات 


على سبيل SEL‏ جميع سجلات البيانات ال 16 3 مجموعة البیانات الخاصة بالیالون 
والمذكورة في الجدول ۱-۱ تدعم العلاقة التالية لمتغيرات الخاصية, اللون (Color)‏ والحجم 
(Size)‏ والفعل (ACL)‏ والعمر (Age)‏ مع متغير الهدف "منفوخ" (Inflated)‏ (حيث 
تشير القيمة ”7“ إلى “True”‏ أي "صحیح": أي GI‏ البالون منفوخ و تشير القيمة ”۴“ 
إلى “False”‏ أي "خاطئ": أي SI‏ البالون غير منفوخ): 


IF (Color = Yellow AND Size = Small) OR (Age = Adult AND Act = 
Stretch), THEN Inflated = T; OTHERWISE, Inflated = f. 


إذا كان (اللون = أصفرء و الحجم = صغير) أو (العمر = راشد و الفعل = ممتد) إذن 
تكون خاصية منفوخ = T‏ (أي "صحیح)؛ وإلا تكون خاصية منفوخ = gl) F‏ "خاطی). 


العلاقة المذكورة أعلاه تسمح W‏ بتصنيف بالون ما إلى قيمة نوعية طتغير الهدف 
باستخدام قيمة محددة للتغيرات الخاصية: اللون (Color)‏ والحجم (Size)‏ والفعل 
(Act)‏ والعمر wks (Age)‏ فان هذه العلاقة تعطينا hë‏ بيانات تسمح لنا بإجراء 
التصتيف للبالون. وعلى الرغم من أنه يمكننا استخلاص نمط العلاقة هذا عن طريق فحص 
سجلات البيانات ال 16 في مجموعة بيانات البالون» إلا أن استخلاص هذا النمط يدوياً من 
مجموعة كبيرة جداً من البيانات المختلطة ببيانات مشوشة قد يكون dogo‏ صعبة. إن 
استخدام خوارزمية استكشاف البيانات يمكننا من التعلم من مجموعة كبيرة من البيانات 

وبمثال آخرء فإن النموذج الخطي التالي يلائم 23 سجلاً Lily‏ لتغیر الخاصيةء وهو درجة 
حرارة الإطلاق (Launch Temperature)‏ والمتغير الهدف: عدد الحلقات الدائرية ذات 
الأحمال الثقيلة (Number of O-rings with stress)‏ في مجموعة البيانات الخاصة 
بالحلقات الدائرية في مكوك الفضاء المذكورة في الجدول ۲-۱: 


y = —0.05746 x + 4.301587 (1-1) 
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الجزء الأول 


Number) تشير إلى المتغير الهدف: عدد الحلقات الدائرية ذات الأحمال الثقيلة‎ y 
(of O-rings with stress 
(Launch Temperature) تشير إلى متغير الخاصيةء وهو درجة حرارة الإطلاق‎ × 


يوضح الشكل ۲-۱ قيم درجة حرارة «BMY!‏ وعدد الحلقات الدائرية ذات الأحمال 
الثقيلة في ال 23 سجلاً dalo‏ ويوضح الخط الملائم الموضح ف ا معادلة الخطية ۱-۱. ويبين 
الجدول ۵-۱ قيمة الخاصية: الحلقات الدائرية ذات الأحمال الثقيلةء لكل سجل من سجلات 
البيانات التي تم التنبؤ بها من قيمة درجة حرارة الإطلاق باستخدام نموذج العلاقة الخطية 
لدرجة حرارة الإطلاق مع عدد الحلقات الدائرية ذات الأحمال الثقيلة في المعادلة .١-١‏ 
باستثناء اثنين من سجلات البيانات للحالتين 2 و11 فإن النموذج الخطي في المعادلة ١-١‏ 
يجسد العلاقة بين درجة حرارة الإطلاق مع عدد الحلقات الدائرية ذات الأحمال الثقيلة 
بشكل جيدء إذ إنه كلما انخفضت قيمة درجة حرارة الاطلاق زادت قيمة الحلقات الدائرية 
ذات الأحمال الثقيلة. ويتضح أن القيمة المتوقعة الأعلى لعدد الحلقات الدائرية ذات 
الأحمال الثقيلة تظهر جلياً في سجل البيانات رقم 14 مع 2 من الحلقات الدائرية بها 
أحمال حرارية. 


EES ا‎ FO TES 


الشکل( ۲-۱) 
النموذج الملائم للعلاقة الخطية الخاصة بدرجة حرارة الاطلاق مع عدد الحلقات الداثرية ذات 
الأحمال الثقيلة في مجموعة البیانات الخاصة بالحلقات الداثرية في مکوك الفضاء 


»ه د2 
2 3 
Q‏ > 
2 3 
a=‏ 
24 
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0 2 
J 3‏ 
A ©‏ 
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0 
85 80 75 70 65 60 55 50 


درجة حرارة الإطلاق - Launch temperature‏ 
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استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ te 


نظرة عامة على استكشاف البيانات 


القیمتان اللتان تم التنبؤ بهما في النطاق املتوسط. 1.026367 و 0.681607 < 
تظهران بوضوح في اثنين من سجلات البیانات آرقام 9 10 في الجدول ۵-۱ مع واحد من 
الحلقات الداثرية ذات الأحمال الثقيلة. وتظهر القیم المتوقعة في نطاق منخقض من - 
3 إلى 0.509227 لجمیع سجلات البیانات التي يبلخ عدد الحلقات الداثرية 
ذات الأحمال الثقيلة بها صفراً. كما یکشف اممعامل السلبي ل بن 0.05746 في املعادلة 
۱-۱ هذه العلاقة. وبالتاليء فإن العلاقة الخطية في المعادلة ۱-۱ تعطي tee‏ للبيانات يتيح 
لنا التنيؤ بالمتغير الهدف (عدد الحلقات الدائرية ذات الأحمال الثقیلق)؛ من متغير الخاصية 
(درجة حرارة الإطلاق) في مجموعة البيانات الخاصة بالحلقات الدائرية في مكوك الفضاء. 


يمكن تمثيل أنماط التصنيف والتنبق التي تصور علاقة متغيرات الخاصية, (مد,.... (Xi‏ 
مع متغيرات الهدفء (ولا,.... ,رنز)» بالشكل العام Y=F(x)‏ بالنسبة ملجموعة بيانات 
البالون. فان blab‏ التصنيف (Classification Patterns)‏ الخاصة ish F,‏ شكل 
قواعد القرار. وبالنسبة لجموعة البيانات الخاصة بعدد الحلقات الدائرية في مكوك الفضاء 
فإن bul‏ التنبؤ FJ (Prediction Patterns)‏ تأخذ شكل النموذج الخطي. وبشكل 
ple‏ يستخدم مصطلح "أنماط التصنيف" إذا كان المتغير الهدف هو متغير نوعي» آما مصطلح 
"أنماط التنبؤ" فيستخدم إذا كان المتغير الهدف هو متغير رقمي. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة £0 


الجزه الأول 


S I PIETA S DE 370 Fi LA T DD TRL متنا هأ‎ YL SETS OREN POPES SOT CALL 2:7. CM REDS MOST YB ی‎ PAES نت۳۱‎ TI AT ETA AR REFINISH نت‎ 


الجدول( 0-4( 
القيمة المتوقعة لعدد الحلقات الدائرية ذات الأحمال الثقيلة 
متغير الهدف - Target Variable‏ 


Attribute Variable 
عدد الحلقات الدائرية القيمة المتوقعة‎ 
درجة حرارة ال(طلاق ذات الأحمال الثقيلة بها لعدد الحلقات الدائرية ذات‎ 
الأحمال الثقيلة‎ Number of Launch 0 1 
Predicted Value O-Rings Temperature رقم العالة‎ 
Instance 
of O-Rings with Stress with Stress 
0.509227 0 66 1 
0.279387 1 70 2 
0.336847 0 69 3 
0.394307 0 68 4 
0.451767 0 67 5 
0.164467 0 72 6 
0.107007 0 73 7 
0.279387 0 70 8 
1.026367 1 57 9 
0.681607 1 63 10 
0.279387 1 70 11 
-0.180293 0 78 12 
0.451767 0 67 13 
1.256207 2 53 14 
0.451767 0 67 15 
-0.007913 0 75 16 
0.279387 0 70 17 
-0.352673 0 81 18 
~0,065373 0 76 19 
-0.237753 0 79 20 
—0.007913 0 75 21 
-0.065373 0 76 22 
0.968907 1 58 23 


1 استكشاف البيانات: نظريات وخوارزميات وأمثلة 


نظرة ea‏ على ا ia‏ 


يستعرض الجزء الثاني من الكتاب Bore‏ استكشاف البيانات التالية التي يتم 
استخدامها لاستنباط أنماط التصنيف والتنبؤ من البيانات: 


* نماذج الانحدار في الفصل ۲ 

© مصنف بييز البسيط في الفصل ۳ 

© أشجار القرار والانحدار في الفصل ع 

© الشبكات العصبية الصناعية للتصنيف والتنبؤ في الفصل © 
۰ الدعم الآلي المتجه في الفصل 1 

© مصنف آقرب ۸ - مجاور والتعنقد الراقب في الفصل ۷ 


توضح الفصول ۲۰ و۰۲۱ و۰۲۳ الموجودة في كتيب استکشاف البیانات )2003 (Ye,‏ 
(The Handbook of Data Mining)‏ والفصلان ۱۲ و۱۳ في کتاب الأنظمة الآمنة 
للحواسيب والشبكات: النمذجة والتحليل والتصميم )2008 (Secure (Ye,‏ 
Computer and Network Systems: Modeling, Analysis and‏ 
Design)‏ التطبيقات الخاصة بخوارزميات التصنيف والتنبؤ لبيانات الأداء الإنساني» 
والبيانات النصية. والبيانات العلمية والهندسية والبيانات الخاصة بالحاسوب والشبکات. 


:(Cluster and Association Patterns) أهاط الاقتران وأغماط العنقود‎ ۲-۳-۱ 


(Xh العنقود متغيرات الخاصية فقط (وتد.....‎ bléls ما تستلزم أنماط الاقتران‎ Sole 
ليشير إلى المجموعة المتشابهة من سجلات البيانات).‎ -cluster- مصطح العنقود‎ nB 
العنقود على مجموعات من سجلات البیانات المتماثلة بحيث تكون سجلات‎ blif تحتوي‎ 
ا في مجموعة واحدة متشابهة, ولكن هناك اختلافات أكبر عن سجلات البيانات في‎ 
مجموعة أخرى. وبعبارة آخری, فإن ماط العنقود تكشف عن أنماط التشابه والاختلاف بين‎ 
سجلات البيانات. آما أتماط الاقتران فیتم تشكيلها على أساس التلازم والتزامن في حدوث‎ 
لیشیر إلى‎ -ASSOCIALION- العناصر الموجودة في سجلات البیانات» (بطلق مصطح الاقتران‎ 
ارتباط وقوع أو حدوث العناصر أو التغیرات اموجودة في سجلات البیانات). في بعض‎ 


استکشاف البیانات: نظريات وخوارزميات وأمثلة tY‏ 


الجزء الأول 


الأحيان» تستخدم tal‏ المتغيرات الهدفه (ولا,.... (Vs,‏ في التعنقد. ولكن يتم التعامل معها 
بنفس الطريقة التي يتم التعامل بها مع متغيرات الخاصية. 


الشكل( ١-؟)‏ 
التعنقد الخاص ب ٠١‏ سجلات من سجلات البيانات في مجموعة بيانات نظام التصنيع 


موعة 2 مجموعة 1 


0 0 0 
1 2 34 5 6 7 8 9 123456789 123456789 123456 5 


حالة رقم 4 حالة رقم 2 حالة رقم 5 حالة رقم 1 
مجموعة 5 مجموعة 4 مجموعة 3 

۱ ملس ۱ ۱ 
nal‏ ات ۱۹۵ LAL,‏ 
123456783 123456789 123456789 1234567869 
حالة رقم 8 حالة رقم 7 حالة رقم 6 حالة رقم 3 
مجموعة 7 مجموعة 6 

1 1 


0 0 
1 2 34 5 67 9 12 3 4 5 6 7 8 9 


حالة رقم 10 حالة رقم 9 


على سبیل JLI‏ يمكن تجميع ۱۰ من سجلات البیانات الموجودة في مجموعة بیانات 
نظام التصنيع وابلوضحة في الجدول ٤-١‏ في سبع مجموعات كما هو مبين في الشکل ۲-۱. 
حيث يوضح المحور الأفقي لكل رسم بياني في الشكل ۲-۱ متغيرات الجودة التسعة» ويوضح 
المحور الرأسي قيمة متغيرات الجودة التسعة تلك. هناك ثلاث مجموعات تتكون من أكثر 
من سجل واحد من سجلات البيانات: المجموعة الأولى )1 (Group‏ والمجموعة الثانية 
(Group 2)‏ والمجموعة الثالثة )3 (Group‏ ضمن كل مجموعة من هذه ال مجموعات. 
تبدو سجلات البيانات متشابهة مع اختلاف القيم في واحدة فقط من متغيرات الجودة 
التسعة. إن إضافة أي سجل بيانات آخر إلى كل مجموعة من هذه المجموعات الثلاث يجعل 


tA‏ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


نظرة عامة 4 على ای وت 


SEG OSS BE 
جودة واحد.‎ 


لنفس مجموعة بیانات نظام التصنیع. فإن متغيرات الجودة, Ky‏ وو مقترنة ببعضها 
بشكل عال لأن لديها نفس القيمة في جميع سجلات البيانات باستثناء السجل رقم 8. وهناك 
أزواج أخرى من التغیرات» على سبيل Xog Xs SEW‏ والتي ترتبط ببعضها إلى حد كبير 
لنفس السبب. هذه هي بعض أنماط الاقتران الموجودة في مجموعة بيانات نظام التصنيع في 
الجدول .6-١‏ 

كما يناقش الجزء الثالث من الكتاب خوارزميات استكشاف البيانات التالية التي يتم 
استخدامها في استنباط أنماط العنقود وأنماط الاقتران من البيانات: 

© التعنقّد الهرمي في الفصل (A)‏ 

.)٩( من المتوسطات والتعنقد على أساس الكثافة في الفصل‎ K التعنقد حول‎ o 

.)۱۰( خريطة التنظيم الذاتي 3 الفصل‎ ٠ 

.)۱۱( التوزيعات الاحتمالية للبيانات أحادية المتغير في الفصل‎ ٠ 

* قواعد الاقتران في الفصل (۱۲). 

© شبكات بييز في الفصل (۱۳). 

وتتناول الفصول ۱۰ و۲۱ و۰۲۲ و۰۲۷ الموجودة في كتيب استكشاف البيانات ( Ye,‏ 
2003( التطبيقات الخاصة بخوارزميات العناقيد تبيانات de‏ السوق» وبيانات الدخول إلى 
شبكة الإنترنت» والبيانات النصية, والبيانات الجغرافية ASSL!‏ وبيانات الصور. بينما يتناول 
الفصل ۲۶ الموجود ف كتيب استكشاف البيانات )2003 (Ye,‏ التطبيق الخاص بخوارزمية 
قاعدة الاقتران لبيانات تركيب البروتين. 


(Data Reduction Patterns) اختزال البيانات‎ bu ۳-۳-۱ 


تبحث أنماط اختزال البيانات عن عدد قليل من المتغيرات التي يمكن استخدامها لتمثيل 
مجموعة من البيانات ذات عدد 4ST‏ بكثير من المتغيرات. حيث إن المتغير الواحد يعطي 
بعداً واحداً من البیانات» وتسمح أنماط اختزال البيانات لمجموعة من البيانات ذات أبعاد 


استكشاف البيانات: نظريات وخوارزميات وأمثلة £4 


الج الأول 


كثيرة أن يتم تمثيلها في مجموعة بيانات ذات أبعاد E‏ على سبيل المثالء يوضح الشكل 26-١‏ 
عشرة سجلات بيانات في فضاء GS‏ الأبعاد Y)‏ ×)» حيث 10 ,... ,7,2 Y=X2,‏ هکن 
تمثيل مجموعة البيانات الثنائية الأبعاد هذه كمجموعة بيانات ذات بعد واحد بحيث تكون 
Z‏ محورأء وتكون 2 مرتبطة بالمتغيرات الأصلية, ag y‏ على النحو التالي: 


Z=x* |P +1 + Gy on 


وتكون نقاط البيانات العشر ل 2 هي: 2.236 4.472 6.708 8.944 11.180 
13.416 15.652 17.889 20.125 و22.361. 


الشكل (۱-ع) 
اختزال البيانات ثنائية الأبعاد إلى مجموعة من البيانات ذات بعد واحد 
20 
18 
16 
14 
x 12‏ 
10 
8 
6 
4 
2 
10 9 8 7 6 5 4 3 2 1 


x 
الجزء الرابع من الکتاب» فيستعرض خوارزميات استكشاف البيانات التالية التي يتم‎ Lol 
استخدامها لاكتشاف أنماط اختزال البيانات من البيانات:‎ 


© تحليل المكونات الرئيسية (الفصل ANE‏ 
© القياس اللتعدد الأبعاد (الفصل ۱۵). 


2h eth ih A RAPP YN kk سس ا ا‎ a شد سد عط عل لش‎ a a a A el hi aC ak E CD 
استكشاف البیانات: نظریات وخوارزميات وأمثلة‎ 0۰ 


نظرة عامة على استكشاف البيانات 


ويتناول الفصلان ۲۳ Ag‏ ألموجود 3 كتيب استكشاف البيانات )2003 We.‏ تطبيقات 
تحليل المكون الرئيسي لبيانات البراكين وبيانات العلوم والهندسة. 


:(Outlier and Anomaly Patterns) الأماط المتطرفة والشاذة‎ 6-۳-۱ 


القيم المتطرفة (outliers)‏ والشاذة (anomaly)‏ هي نقاط البيانات التي تختلف 
إلى حد كبير عن اللعبار العام للبيانات. وهکن تعريف اطعيار العام للبيانات بعدة طرق. 
على سبيل JEM‏ يمكن تعريف المعيار على أنه نطاق القيم الذي تشغله غالبية نقاط 
البيانات» ونقطة البيانات ذات القيمة التي تكون خارج هذا النطاق» هكن اعتبارها قيمة 
متطرفة. یوضح الشكل .۵-۱ زسماً Lob,‏ لتكرار قيم درجة حرارة الإطلاق الخاص بنقط 
البیانات في مجموعة بیانات مکوك الفضاء المذكورة في الجدول ۲-۱. هناك ثلاث قیم من 
قيم درجة حرارة الاطلاق في النطاق 397 f50,‏ وعدد سبع قیم في النطاق ]69 ,£60 
وعدد اثنتي عشرة dod‏ في النطاق 797 ,70 / وقيمة واحدة فقط في النطاق ]89 ,80/. 
وبالتالي» فان غالبية قیم درجة حرارة الاطلاق هي في النطاق ]79 ,50/. وهکن اعتبار 
القيمة 81 في السجل 18 قيمةٌ متطرفةّ أو شاذة. 


الشكل ( 0-5 ) 
الرسم البياني التكراري لدرجات حرارة الإطلاق في مجموعة بيانات مكوك الفضاء 
12 
H‏ 
10 
9 = 
8 4 
0 
۱ 
Š 5‏ 
E 4‏ 
3 
2 
1 
0 
]89 ,180 ]79 ,70( ]69 ,60] ]59 ,50] 


درجة حرارة الاطلاق - Launch temperature‏ 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۱ 


الجزه الأول 


ويستعرض الجزء الخامس من الكتاب خوارزميات استكشاف البيانات التالية التي 
تستخدم لتحديد بعض المعايير الإحصائية OULU‏ وللكشف عن القيم المتطرفة والشاذة 
وفقاً لتلك المعايير الإحصائية: 

© مخطط التحكم أحادي المتغير في الفصل ١5‏ 

© مخطط التحكم متعدد المتغيرات في الفصل ۱۷ 

تقدم الفصول ۲۰ و۲۸ الموجودة في كتيب استكشاف البيانات )2003 ,۲6 ) والفصل 
۶ الذي يدور حول الأنظمة الآمنة للحواسيب والشبكات: النمذجة والتحليل والتصميم 
(Ye, 2008)‏ التطبيقات الخاصة بخوارزميات الكشف عن البيانات المتطرفة والشاذة في 
بيانات القطاع الصناعي وبيانات الحواسيب والشبكات. 


۰-۳-۱ الأماط الزمنية والتسلسلية :(Sequential and Temporal Patterns)‏ 
تكشف الأنماط الزمنية والتسلسلية عن الأماط الموجودة في سلسلة نقاط أو سجلات 
البيانات. إذا تم تعريف التسلسل على أنه الوقت الذي جمعت خلاله نقاط البیانات» فإننا 
نطلق على سلسلة نقاط البيانات "سلسلة الزمن". يوضح الشكل 5-١‏ السلسلة الزمنية لقيم 

درجات الحرارة في مدينة ما كل ثلاثة شهور Bab‏ ثلاث سنوات. 
الشكل( 1-1( 
درجة حرارة الطقس كل ثلاثة شهور طدة ۳ ستوات 
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درجه الحرارة 
Temperature‏ 
oo‏ 
© 


or‏ استکشاف البیانات: نظريات وخوارزمیات وأمثلة 


نظرة عامة على استكشاف البيانات 


FEN ا ا‎ PRL 


حبر حبر oN‏ 
2 ما وم 
alaan 2200‏ 285 
e‏ يكن h‏ 0 
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)١ -۱ الجدول(‎ 


(System 
Fault), y 


عطل النظام 


مجموعة بيانات اختبارية لنظام تصنيع معين لاكتشاف وتشخيص الأعطال 
X9‏ 
1 
0 
1 
1 
1 
0 
0 
1 
0 
0 
l‏ 
1 
1 
1 
1 


Target Variables - متغيرات الهدف‎ 


Machine Fault — all Jhe 


استكشاف البيانات: نظريات وخوارزميات وأمثلة or‏ 


الجزء الأول 

هناك مط دوري لدرجات الحرارة: ۰1۰ ۸۰ ۱۰۰ و ۰ والذي يتكرر ple JS‏ يمكن 
اكتشاف مجموعة متنوعة من الأنماط الزمنية والتسلسلية باستخدام خوارزميات استكشاف 
البيانات في الجزء السادس من الکتاب ها في ذلك: 


za: og a en ee a ae a a ed 


aE LL‏ تنا 


AVA) تحليل الارتباط الذاتي وسلاسل الزمن في الفصل‎ ٠ 

© اذج سلسلة ماركوف ونماذج ماركوف الخفية في الفصل .)۱٩(‏ 

© تحلیل المويجات في الفصل (۲۰). 

و تتناول الفصول Vig ,١١و »٠١‏ الموجودة في كتاب الأنظمة الآمنة للحواسيب 
والشبكات: النمذجة والتحليل والتصميم )2008 (Ye,‏ التطبيقات الخاصة بخوارزميات 
استكشاف نمط تسلسلي وزمني لبيانات الحاسب والشبکات» لكشف الهجمات الحاسوبية 
عبر الإنترنت. 


٤-١‏ البيانات التدريبية والبيانات الاختبارية 
(Training Data and Test Data):‏ 
مجموعة البيانات التدريبية gl)‏ الاستكشافية) هي مجموعة من سجلات البيانات التي 
يتم استخدامها لمعرفة واكتشاف bl‏ البيانات. بعد اكتشاف أنماط البيانات, ينبغي 
اختبارها لمعرفة إمكانية تعميمها على مجموعة واسعة من سجلات البیانات» Lg‏ في ذلك تلك 
التي تختلف عن سجلات البيانات التدريبية. وئستخدم مجموعة البيانات الاختبارية لهذا 
الغرض. بالإضافة إلى احتوائها على سجلات بيانات جديدة ومختلفة. على سبيل المثال» يبين 
الجدول 1-۱ مجموعة بيانات اختبارية لتصنيع نظام معين واكتشاف أعطاله وتشخيصها. 
وتحتوي مجموعة البيانات التدريبية لنظام التصنيع هذا والمذكورة في الجدول ۶-۱ على 
سجلات بيانات dole‏ بتسع أعطال أحادية AM‏ وحالة واحدة VY‏ بدون أعطال. تحتوي 
مجموعة البيانات الاختبارية في الجدول 1-۱ على سجلات بيانات لبعض الأعطال ثنائية IYI‏ 
وثلاثية الآلة Lal‏ 


ot‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


ر عام على لد البيالات 


s(Exercises) التمارين‎ 


1-١ 


۲-۱ 


0-1 


أوجد وقم بوصف مجموعة بيانات تحتوي على ۲۰ سجل بيانات على الأقل» والتي 
سبق استخدامها في تطبيق لاستكشاف البيانات لغرض اكتشاف bl‏ التصنیف» على 
أن تحتوي مجموعة البيانات هذه على العديد من متغيرات الخاصية dye gill‏ ومتغير 
هدف نوعي. 

أوجد وقم بوصف مجموعة بیانات تحتوي على ٠١‏ سجل بيانات على الأقل» والتي 
سبق استخدامها في تطبيق لاستكشاف البيانات لغرض اكتشاف أنماط gual‏ على أن 
تحتوي مجموعة البيانات هذه على العديد من متغيرات الخاصية الرقمية» ومتغير 
هدف رقمي. 

آوجد وقم بوصف مجموعة بيانات تحتوي على ۲۰ سجل بيانات على الأقل» والتي 
سبق استخدامها في تطبيق لاستكشاف البيانات لغرض اكتشاف bla]‏ العنقود. على 
أن تحتوي مجموعة البيانات هذه على متغيرات الخاصية متعددة ورقمية. 

آوجد وقم بوصف مجموعة بيانات تحتوي على ۲۰ سجل بيانات على LM‏ والتي 
سبق استخدامها في تطبیق لاستکشاف ۳9 لغرض اكتشاف أنماط الاقتران على أن 
تحتوي مجموعة البیانات هذه على عدة متغيرات نوعية. 

آوجد وقم بوصف مجموعة بیانات تحتوي على ۲۰ سجل بیانات على الأقلء والتي 
سبق استخدامها ‏ تطبیق لاستکشاف البیانات لغرض اکتشاف أنماط اختزال 
البیانات» وحدد نوع (آنواع) متغيرات البیانات في مجموعة البیانات هذه. 

آوجد وقم dog:‏ مجموعة بیانات تحتوي على ۲۰ سجل بیانات على الأقل» والتي 
سبق استخدامها في تطبیق و البیانات لغرض اکتشاف الأماط امتطرفة 
والشاذق وحدد نوع (أنواع) متغیرات البیانات في مجموعة البیانات هذه. 

آوجد وقم بوصف مجموعة بیانات تحتوي على ۲۰ سجل بیانات على الأقلء والتي 
سبق استخدامها في تطبیق لاستکشاف البيانات لغرض اکتشاف الأنماط الزمنية 
والتسلسلية. وحدد نوع (أنواع) متغیرات البیانات في مجموعة البیانات هذه. 
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الجزء الثاني 
خوارزميات لاستکشاف أنماط التصنيف والتنبؤ 
Algorithms for Mining Classification and‏ 
Prediction Patterns‏ 


خوارزميات لاستكشاف bui‏ التصنيف والتنبؤ 


ane -Y‏ الانحدار الخطية وغير الخطية 
Linear and Nonlinear Regression Models‏ 


تعمل نماذج الانحدار على توضيح الكيفية التي يتغير بها واحد أو أكثر من متغيرات 
الهدف تبعاً لتغير واحد أو أكثر من متغيرات الخاصية. ويمكن استخدامها للتنبؤ بقيم 
متغيرات الهدف باستخدام قيم متغيرات الخاصية. وفي هذا الفصلء سنتناول نماذج الانحدار 
الخطية وغير الخطية. كما سنناقش في هذا الفصل طريقة اطربعات الصغرى (least‏ 
squares method)‏ وطريقة الإمكان الأكبر (maximum likelihood method)‏ 
لتقدير المعلمات في تماذج الانحدار. بالإضافة إلى ذلك. سيتم تقديم قائمة من الحزم البرمجية 
التي تدعم بناء نماذج الانحدار. 


(Linear Regression Models) نماذج الانحدار الخطي‎ ۱-۲ 


يحتوي نموذج الانحدار الخطي البسيطء على متغير هدف واحد y‏ فقط ومتغير خاصية 
واحد x‏ فقط كما هو موضح أدناه: 


ميد & + Yi = Bo + Bx:‏ 
حيث l‏ 
لزن تشير إلى الملحوظة المرصودة رقم i‏ لكل من × و -Y‏ 
Er‏ بمثل الخطأ العشواني (على سبيل JEM‏ خطأ القیاس) الذي يسهم في 


اللحوظة المرصودة رقم ۶ الخاصة بالمتغير -Y‏ 


بالنسبة لقيمة معينة ل نزت IS jò‏ من Vi‏ و :6 يعد متغيرات عشوائية هكن أن يتبع 
قيمها توزيعاً احتمالياً كما هو موضح في الشكل ۱-۲. وبعبارة أخرى لنفس قيمة :۵ هکن 
ملاحظة قيم مختلفة ل نز و6 في آوقات مختلفة. يوجد BW‏ افتراضات خاصة ب نع : 
Efe) = 0 <4‏ وهو ما يعني أن متوسط الخطأ العشوافي Ei‏ يساوي الصفر. 
varfe)= -Y‏ وهو ما يعني أن الأخطاء العشوائية لها تباين ثابت يساوي 62. 


استكشاق البيانات: نظريات وخوارزميات وأمثلة 0۹ 


الجزء الثاني 


ا 


-Y‏ 0-ززع , :00006 حيث ۶ # j‏ وهو ما يعني أن التباين الصاحب 
(covariance)‏ لكل من (E; , £i)‏ لأي ملحوظتين مرصودتين 
بيانيتين مختلفتين (الملحوظة رقم 7 والملحوظة رقم (J‏ يساوي 
صفراً. 


هذه الافتراضات تعني أن: 


Efi) = Bo + Bixi -١ 
varp) = فى‎ -Y 


y) = 0 -۳‏ , :60۷6 لذي ملحوظتين مرصودتين بيانيتين مختلفتين ل نل الملحوظة رقم 


. والملحوظة رقم‎ i 
)۱-۲( الشكل‎ 
مثال توضيحي لنموذج انحدار بسيط‎ 


y 


be =Bot Bix, 
yi 


X; x 


ويمكن توسيع نموذج الانحدار الخطي البسيط ف المعادلة ۱-۲ ليشمل متغيرات خاصية 
متعددة: 


E‏ محمد د SS‏ و عبد تاي ب سوير مرو رب تحت و وت A Fe ST TL FYE‏ لا ع SE VFI GT age EE YY‏ يدعم مور سوم عا سو ,حك حو و بت 


T‏ استکشاف البیانات: نظريات وخوارزميات وأمثلة 


خوار زمیات استکشاف bul‏ التصنيف والتنبة 


„j تشير إلى الملحوظة المرصودة رقم ۶ لمتغير الخاصية رقم‎ xij 


نماذج الانحدار الخطي في المعادلتين ۱-۲ Y-Y‏ هي dbs‏ بالمعلمات: م ,... ,0 © 
ومتغيرات الخاصية: Xip‏ ,... ,اند وبشكل عام نماذج الاتحدار الخطي هي خطية في 
العلمات ولكنها ليست بالضرورة خطية في متغيرات الخاصية. نموذج الانحدار التالي متعدد 
الحدود للمتغير x7‏ هو أيضاً نموذج انحدار خطي: 


Yi = Bo + Pixia + + Bixi +E; (-) 


حيث إن # هو ous‏ صحيح ST‏ من 1. ويأتي الشكل العام لنموذج الانحدار الخطي كما 


y= Bo + By Pi (%j1, noi Xip) +.. + By Py (Xia, way Xip) + E&i )6-۲( 


حيث إن d= {x ok Dy‏ هي دالة خطية أو غير خطية تستلزم واحدا أو آکثر من التغرات 
Xi, ..., Xp‏ وفيما يلي مثال آخر لنموذج انحدار خطي معلماته: 


Yi = Bo + 602:1 + BoXi2 + B3 log Xi1Xi2 + Ei (0-¥) 


ON A A :جع‎ ara LL aL SCR TT 1 


استكشاف البیائات: نظريات وخوارزمیات وأمثلة WwW‏ 


amara ry اه لزب‎ a t nae COTY, 


Y-Y‏ طريقة no dis sos, YE pon‏ ل 5 المعلمة 
{Least-Squares Method and Maximum Likelihood Method of‏ 
Parameter Estimation):‏ 
حتى يتم ملاءمة نموذج انحدار خطي مع مجموعة من البيانات التدريبية أو 
الاستكشافية we Xap) AXi Vi)‏ ,)= حيث #«,... d=,‏ فإننا نحتاج إلى تقدير اممعلمات 
Bs‏ (الْعلمات: مفردها doles‏ وهي عبارة عن عامل متغير قابل للقياس في نظام معادلات 
معين). bole‏ ما يتم استخدام طريقة المربعات الصغرى وطريقة الإمكان الأكبر لتقدير 
امعلمات AS‏ وسوف يتم توضيح كلتا الطريقتين باستخدام نموذج الانحدار الخطي البسيط 

في املعادلة ۱-۲. 

Gas‏ طريقة Ole pb!‏ الصغری عن قيم للمعلمات 0 Brg‏ التي تقلل من مجموع 
الأخطاء التربيعية (SSE)‏ بين القيم الستهدفة الفعلية (Vi i=,- A)‏ والقیم املستهدفة 
اللقدرة («...,/-۸ (Yi,‏ باستخدام املعلمات القدرة Êo‏ و By‏ مجموع الأخطاء التربيعية 
(SSE)‏ عبارة عن دالة لكل من Êo‏ و Bi‏ 


n n 
A 2 
SSE = < i= 90? = ) 0i- bo- Ari) n 
i=1 i=1 


يجب أن تكون قيمة الاشتقاق Sjodl‏ ل SSE‏ فيما يتعلق ب By‏ و By‏ صفراً عند النقطة 
التي يتم فيها تصغير SSE‏ ومن ٹم فان قيم Bo‏ و By‏ التي تصخر 3 قيمة SSE‏ يتم الحصول 
علیها باشتقاق SSE‏ بالنسبة ل Bo‏ و » ووضع هذه الاشتقاقات الجزئية مساويةٌ للصفر: 


0551 
س‎ = 2 5 bi Bo - Bx;) = 0 (v-¥) 


i=1 
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Sea ٠ الف‎ bui خوارزميات الح‎ 


Sao- Bo- fıx) =0 av‏ ا 


يتم تبسيط المعادلات ۷-۲ و۸-۲ إلى: 


Yo- Bo- B,x;) = و70 = ل‎ — DX =0 (3-7) 


xii - وق‎ - Bix;) = ) Xiyi E 2 9 x )۱۰-۲( 
121 21 


=1 1-1 
=0 


وبحل المعادلات ٩-۲‏ و۱۰-۲ ل By‏ و By‏ نحصل علی: 


û = Diz% - PO; - J) _ i1 20 ¬ Cin DQ YO) 


1 - 2 n Dix? (EL, x1) 9 
1 0 2 

Bo = n (ds = ĝi د‎ y- Bix )۱۲-۲( 
isi 11 


لا يتطلب تقدير المعلمات في نموذج الانحدار الخطي البسيط القائم على طريقة 
Coley ph‏ الصغرى أن يكون للخطأ العشوائي Ei‏ شكل محدد من أشكال التوزيع الاحتمالي. 
إذا أضفنا إلى نموذج الانحدار الخطي البسيط في المعادلة ۱-۲ الافتراضي أن Er‏ موزعة Laub‏ 
بمتوسط قيمته صفر وتباين ثابت وغير معروف قيمته 62 ويرمز لهذين الافتراضيين بالرمز 


استكشاف البيانات: نظریات وخوارزمیات وأمثلة w‏ 


wre p alò NO o)‏ طريقة 7 si‏ لتقدير ا معلمات في نموذج الانحدار 
الخطي البسيط. الافتراض أن الأخطاء العشوائية EiS‏ مستقلة ( NO, P‏ يعطي التوزيع 


الطبيعي yiJ‏ مع: 
E(y:) = Bo + Baxi (Y-Y)‏ 
(۲-ع۱) var(y;) = o°‏ 


وتكون داله الكثافة (density function)‏ للتوزيع الاحتمالي الطبيعي: 

۳ oi! - EQ) y 

fO) = 7 © 2 5 : 7 
- 70-6 

اس ی 39 

۷27 6 


)۱۵-۲( 


نظراً لأن yis‏ مستقلة. فإن احتمال ملاحظة Yn‏ لر هو L‏ والتي تمثل Lolo‏ ضرب دوال 
الكثافة الفردية وو(زبزاز وتمثل دالة لكل من Bo, Br,‏ 0°9: 


1/2 - 80-8 7 
L(Bo, B1,0) = و‎ TE ze ۳ o ) (YY) 


إن القیم القدرة للمعلمات؛ :8 Bo,‏ ۶ © والتي تُعظم دالة الإمكان في المعادلة ۱۳-۲ هي 
مقدرات الإمكان الأكبر ويمكن الحصول عليها باشتقاق دالة الإمكان بالنسبة ل Bo, Bi,‏ وتم 
ومساواة هذه الاشتقاقات الجزئية بالصفر. ولتسهيل الحساب» نستخدم التحويل 
اللوغاريتمي الطبيعي (ln)‏ لدالة الإمكان للحصول على: 


1£ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات لا لاستكشاف bial‏ التصنيف والتنبؤ 


a2 n‏ م م 
(Bo, Bs 67) _ a2- Bo- — B,x;) = 0 )۱۷-۲(‏ ملك 


0 Oe 
dinL (Bo. By ,2 ix 500 
اا‎ = 2 > x: — By - Bix;) > 0 (\A-¥) 
1 =1 


AlnL (Bo, By .6? n 1 5 F A t 
شن نا‎ ta D n- A-ho ل‎ 
f=1 


ويتم تبسيط المعادلات من ۱۷-۲ إلى ۱۹-۲ لتصبح: 


21 
0 - ĝo- Êıx:) =0 (v-v) 
i=1 


7 
>: xi (Yi — و‎ B.x:) =0 )۲۱-۲( 


1-1 


2 ۳ 
Bo-B xi) )۲۲-۲(‏ بر = G2‏ 
n‏ 
العادلتان ۲۰-۲ ۲۱-۲ هما العادلتان ٩-۲‏ و ۲-۱۰ نفسهما. ومن تم. فان مقذرات 


الامکان الأكبر ل Bry Bo‏ هي مقدرات الربعات الصغری ل Bry Bo‏ نفسها املعطاة في 
امعادلتین ۱۱-۲ و۱۲-۲. 
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الجزء الثاني 


وبالنسبة ۳ الانحدار الخطي 3 Taleb!‏ ۲-۳ العتوي على متغیرات خاصية متعددة. 
نعرف [=م×.» ونعيد كتابة ابلعادلة ۲-۲ لتصبح: 


Yi = BoXio + Baxi + + BiXip + Ei )۲۲-۲( 


وبتعریف ال مصقوفات ASW)‏ 


11 1 xı oe My Bo 81 
y = x= : : *. : B = : e= : ۳ 
Yn 1 Xn1 ~ Kap Bp En 
نعيد كتابة المعادلة ۲۲-۲ في شكل مصفوفة:‎ 
م + ع < بر‎ (re-¥) 


وتكون مقدرات المربعات الصغرى ومقذرات الإمكان الأكبر الخاصة بالمعلمات كما يلي: 
Ê = (x'x)*(x'y), (¥o-¥)‏ 
حيث (xx)!‏ تمثل معكوس اللصفوفة ×× 


استكشاف البيانات: تظريا يات وخوار رزمیات وأمثلة 


ually اليف‎ bul a | خوار زمیات‎ 


الجدول (۱-۲) 
مجموعة بیانات الحلقات الداثرية ذات الأحمال الثقيلة مع القيمة الستهدفة المتوقعة من الانحدار الخطي 


5 ۳ - a. “Ir 
25 pe ae ant ore درجة حرارة الاطلاق‎ had! رقم‎ 
9 Launch Temperature Instance 
Number of O-Rings with Stress 


0 66 1 
1 70 2 
0 69 3 
0 68 4 
0 67 § 
0 72 6 
0 73 7 
0 70 8 
1 57 9 
1 63 10 
1 70 11 
0 78 12 
0 67 13 
2 53 14 
0 67 15 
0 75 16 
0 70 17 
0 81 18 
0 76 19 
0 79 20 
0 75 21 
0 76 22 
l 58 23 
:)۱-۲( JUL 


استخدم طريقة المربعات الصغرى لتمثيل نموذج انحدار خطي لبيانات الحلقات 
الدائرية في مكوك الفضاء في الجدول ۵-۱ والمعطاة أيضاً في الجدول ۰۱-۲ وقم بتحديد 
القيمة الستهدفة المتوقعة لكل ملحوظة باستخدام موذج الانحدار الخطي. 
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تحتوي هذه البيانات على متغير خاصية واحد × هثل درجة حرارة الاطلاق ومتغير هدف 
واحد y‏ هثل ous‏ الحلقات الدائرية ذات الأحمال الثقيلة. نموذج الانحدار الخطي degen‏ 
البيانات هذه هو: 


Yi = Po + Pixi + £i 


يوضح الجدول ۲-۲ العملية الحسابية لتقدير By‏ باستخدام المعادلة ۱۱-۲. وباستخدام 
امعادلة ۰۱۱-۲ نحصل على: 


7 5 Dimi - XxX); — y) 7 —65.91 0 
:)ل‎ - (2 1382.82 


0.05— 
باستخدام المعادلة A-Y‏ نحصل علی: 
Bo = 7 - BX = 0.30 - )-05()69.57( = 3.78‏ 
ومن ثم. يكون نموذج الانحدار الخطي: 
بع + 0.05x;‏ — 3.78 = رت 
المعلمات في نموذج الانحدار الخطي هذا مشابهة للمعلمات 4.301587 = Bo‏ و= By‏ 


0.05746 ف المعادلة 1-١‏ والتي يتم الحصول عليها من الحزمة البرمجية إكسل لنفس 
مجموعة البيانات. والاختلافات الظاهرة في قيم المعلمات ناتجة عن التقريب في الحساب. 


ee on a‏ ' استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات تحاف bui‏ الصيف ' والتنيق 


الجدول (۲-۲) 
العملية الحسابية لتقدير معلمات النموذج الخ 
ost i 7‏ 13“ 
رقم درجة حرا رة عدد هب 
الحالة ایو ii‏ 7ب 9 سبي a- -Dw‏ 
umber 0 unei‏ 
O-Rings Temperature Instance‏ 
1 66 0 3.57- 0.30— 1.07 12.74 
2 70 | 0.43 0.70 0.30 0.18 
3 69 0 0.57- 030- 0.17 0.32 
4 68 0 1.57- 0.30 0.47 2.46 
5 67 0 2.57- 0.30 0.77 6.60 
6 72 0 2.43 0.30- 0.73- 5.90 
7 73 0 3.43 0.30- 1.03~ 11.76 
8 70 0 0.43 0.30- 0.13- 0.18 
9 57 1 7- 0.70 0 - 158.00 
10 63 1 6.57— 0.70 4.60— 43.16 
il‏ 70 1 0.43 0.70 0.30 0.18 
12 78 0 8.43 0.30- 3 2- 71.06 
13 67 0 2.57- 0.30- 0.77 6.60 
14 53 2 16.53- 1.70 28.10— 273.24 
15 67 0 2.57- 0.30- 0.77 6.60 
16 75 0 5.43 0.30- 3 [- 29.48 
17 70 0 0.43 0.30- 0.13 0.18 
18 ا8 0 11.43 0.30- 3.43- 130.64 
19 76 0 6.43 0.30- 1.93- 41.34 
20 79 0 19.43 0.30— 5.83- 377,52 
21 75 0 5.43 0.30— 3 - 29.48 
22 76 0 6.43 0.30 1.93- 41.34 
23 58 1 11.57- 0.70 8.10- 133.86 
ایلجموع 1600 7 ]65.9 1382.82 


المتوسط 2-6957 


| 
1 
> 
نيا 
> 


۳-۲ نماذج الانحدار غير الخطية وتقدير المعلمة 
(Nonlinear Regression Models and Parameter Estimation):‏ 
تكون نماذج الاتحدار غير الخطية غير خطية في معلمات النموذج وتأخذ الشكل العام 


i= f (Xi B) + Ei (¥1-¥) 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة 1۹ 


وتکون کر غير خطية في #, يعد نموذج الانحدار الأمي التالي مثالاً على نماذج الانحدار غير 
الخطية: 


5 


Yi = Bo + 62 + بع‎ (rv-¥) 
ویعد نموذج الانحدار اللوجستي التالي مثالاً آخر على نماذج الانحدار غير الخطية:‎ 


Bo 
Yi = 1 + 27 + برع‎ (YA-Y) 
يتم استخدام طريقة المربعات الصغرى وطريقة الإمكان الأكبر لتقدير معلمات نموذج‎ 
و۲۱-۲ لنموذج الاتحدار‎ ۲۰-۲ ۱۰-۲ ٩-۲ الانحدار غير الخطية. على عكس اللعادلات‎ 
الخطي» وبشكل عام فإن المعادلات لنموذج الانحدار غير الخطي ليس لها حلول تحليلية‎ 
نظراً لأن نموذج الانحدار غير الخطي هو غير خطي في المعلمات. وُستخدم طرق البحث‎ 
(Gauss- الرقمي القائمة على أسلوب البحث التكراري مثل طريقة غاوس - نيوتن‎ 
(gradient decent search وطريقة بحث الانحدار اطتدرج‎ Newton method) 
لتحديد قيم المعلمات المقدرة. ويمكن الحصول على شرح مفصل لطريقة غاوس-‎ method) 
وعادةٌ ما تستخدم برامج حاسوبية خاصة في العديد من‎ (Neter et al., 1996) نيوتن في‎ 
الحزم البرمجية الإحصائية لتقدير معلمات نموذج الانحدار غير الخطي لأنها تتطلب حسابات‎ 
مكثفة لإجراء أسلوب البحث التكراري.‎ 


Nine وی سم في امه .لیا مق‎ ta See لو‎ ePID RIT TEAS A OS د سدع‎ TS, سس سي مج‎ > ASS را‎ tah سف‎ cet 
استكشاف البيانات: نظريات وخوارزمیات وأمثلة‎ ۷. 


خوار زمیات لاستکشاف أنماط التصنیف والتنيؤ 


:(Software and Applications) ( والتطبیقات‎ eee £-¥ 


هناك العديد من الحزم البرمجية الإحصائية, ها في ذلك ما يليء والتي تدعم بناء نموذج 
الانحدار الخطي أو غير الخطي: 


e Statistica ) http://www.statsoft.com) 
e SAS ) http://www.sas.com) 
e SPSS (http://(www.ibm/com/software/analytics/spss/ ) 


وتعتبر تطبيقات ماذج الانحدار الخطي وغير الخطي شائعة الاستخدام في العديد من 
المجالات. 


(Exercises) التمارين‎ 


۱-۲ بالنظر إلى مجموعة بيانات مكوك الفضاء الواردة في الجدول ۱-۲ قم باستخدام 
المعادلة ۲۵-۲ لتقدير معلمات نموذج الانحدار الخطي التالية: 


Yi = Bo + Bı Xi + Ei» 
حيث إن:‎ 
:د هي درجة حرارة الإطلاق‎ 
هي عدد الحلقات الدائرية ذات الأحمال الثقيلة‎ yi 
المتوقعة من‎ y الناتجة عن قيم‎ (SSE) قم بحساب مجموع الأخطاء التربيعية‎ 
نموذج الانحدار.‎ 


۲-۳ بالنظر إلى مجموعة بيانات مكوك الفضاء الواردة 3 الجدول ۱-۲ قم باستخدام 
العادلات ۱۱-۲ ۱۲-۲ لتقدیر معلمات موذج الانحدار الخطي التالية: 


Vi = Bo + Baxi + Ej, 


استكشاف البيانات: نظريات وخوارزميات وأمثلة v‏ 


Xi‏ هي درجة حرارة الإطلاق. 
yi‏ هي عدد الحلقات الدائرية ذات الأحمال الثقيلة. 
قم بحساب مجموع الأخطاء التربيعية (SSE)‏ الناتجة عن قيم y‏ المتوقعة من 
نموذج الانحدار. 


۲-۲ قم باستخدام مجموعة البيانات الموجودة في التمرين ۲-۱ لبناء نموذج الانحدار 
الخطي وحساب مجموع الأخطاء التربيعية (SSE)‏ الناتجة عن قيم Y‏ المتوقعة من 
تموذج الانحدار. 


vY‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات لامتكشاف i Mal‏ التصنيف lly‏ 


Naive Bayes Classifier 


يستند مصنف بييز البسيط على نظرية بييز. ومن ثم فإن هذا الفصل يستعرض أولاً 
نظرية jan‏ ثم يصف بعد ذلك مصنف بييز البسيط. وترد قائمة بحزم برمجية لاستكشاف 
البيانات التي تدعم تعلّم مصنف بييز البسيط. ويتم WIS‏ استعراض بعض التطبيقات 
لصنفات بييز البسيطة مع ذكر مراجعها. 


۱-۳ نظرية (Bayes Theorem) jas‏ 
ليكن لدينا الحدثان A‏ و بمثل تزامن أو اقتران (Y‏ الحدثين وقوع كل من A‏ و8 في 
الوقت نفسه. ويتم حساب الاحتمال P(A®B)‏ باستخدام احتمال كل من A‏ و وکل من 
P(A)‏ و(2)8 والاحتمال الشروط ل A‏ علماً بوقوع الحدث 8 ویکتب P(A|B)‏ أو ل 8 

علماً بوقوع الحدث 4 ویکتب :P(BIA)‏ 


P(A*B) = P(A|B)P(B) = P(B|A)P(A) (1-۳)‏ 
ويتم اشتقاق نظرية jaw‏ من المعادلة ۱-۳: 


P(A|B) = تست‎ (Y-Y) 


۲-۳ التصنيف القائم على نظرية بييز ومصنف بييز البسيط 
(Classification Based on the Bayes Theorem and Naive Bayes Classifier):‏ 
بالنسبة إلى متجه البيانات × الذي يحتاج إلى تحديد فئته الهدف ر يكون التصنيف 

اللاحق الاک y (maximum a posterior-MAP)‏ ل لا هو: 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۷۳ 


gus 


Ymar = arg max P(y|x) = arg marr arg max p(y)P(xly) (Y-Y) 
OV ۳-۳ حيث ۲ هي مجموعة كل الفئات الهدف. تستخدم العلامة 27 في المعادلة‎ 
هو نفسه لجميع قيم نل ومن ثم يمكن تجاهله عندما نقارن‎ P(x) الاحتمال‎ 
(prior probability) هو الاحتمال السابق‎ P(x) y لجميع قيم‎ ply)P(x/y)/P(x) 
هو الاحتمال السابق‎ Ply) × نرصد × من دون أي معرفة عن ماهية الفثة الهدف ل‎ LL 
بأننا نتوقع نل مما يعكس معرفتنا ا مسبقة عن مجموعة البيانات ل × وإمكانية الفئة الهدف‎ 
محددة. داب هو الاحتمال اللاحق ل‎ x في مجموعة البيانات من دون الإشارة إلى أي‎ y 
arg max P(X|y) أن الملحوظة المرصودة المعطاة هي × وتقارن القيمة‎ Lale إذا‎ y 
الاحتمال اللاحق لجمیع الفئات الهدف بمعرفة × مسبقاً ومن ثم تختار الفئة الهدف ر مع‎ 
Y الاحتمال اللاحق الأكبر. (نزا:)2 هو احتمال أن نرصد × إذا كانت الفثة الهدف هي‎ 
من بين جميع الفثات الهدف هو تصنيف الإمكان‎ P(xly) الذي يعظم‎ y ويكون التصنيف‎ 

(ML) الأكر‎ 


Ym = arg RE (x|y) (<-¥) 
فإن:‎ Sy’ XS yey’ ey لأي‎ POPO) إذا كانت‎ 


Yuar © arg max p(y)P(xly) * arg max P(x|y) 


ومن نم: 
Ymar = YML‏ 
ويستند مصنف بييز البسيط على تصنيف MAP‏ مع افتراض إضافي خاص متغيرات الخاصية 


-Xp (‏ ,»)=× أن هذه المتغيرات کرد مستقلة بعضها عن بعض. وبهذا الافتراض, يكون 
لدينا: 


ye‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات لاستكشاف bul‏ التصنيف والتنبق 


p 
x = 0-۳ 
Yuar =arg max p(y)P(x|y) = arg «(| [Pem (o-¥) 


ويقوم مصنف بییز البسيط بتقدير قيم حدود الاحتمال في المعادلة ۵-۲ على النحو التالي: 


فك —-= 
>= روم 


)۷-۳( 


n‏ هو إجمالي عدد سجلات البیانات في مجموعة البیانات التدريبية. 
my‏ هو sus‏ سجلات البيانات المحتوية على الفثة الهدف ز. 
هو عدد سجلات البیانات بفثة الهدف y‏ ومتغیر الخاصية رقم ۶ الذي يأخذ 
Tyee;‏ القيمة :× . 


JELI‏ التالي (رقم ۱-۳) يمثل تطبيقاً لصنف بییز البسيط. 


المثال )3-1( 

استخدم وتعرف على مصنف بییز البسيط لتصنيف ما إذا كان نظام تصنيع ما معطلاً 
باستخدام متغيرات الجودة التسعة. تعطي مجموعة البيانات التدريبية الواردة في الجدول 
۱۲ جزءاً من مجموعة البيانات الواردة في الجدول ۶-۱ وتتضمن تسع حالات ذات أعطال 
مفردة وحالة واحدة غير معطلة في نظام التصنيع. يوجد تسعة متغيرات خاصية لجودة 
الوحدات» (ود, ... ,ر)» ومتغير هدف واحد y‏ يشير إلى عطل النظام. يوضح الجدول Y-Y‏ 
حالات الاختبار لبعض الحالات المتعددة الأعطال. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة vo‏ 


الجزء الثاني 
الجدول (۱-۲) 
مجموعة البيانات التدريبية الخاصة بالكشف عن أعطال نظام التصنيع 


Attribute Variables - متغيرات الخاصية‎ 


Target Variables 
عطل النظام‎ 
(System Fault), y 


رقم الحالة 
Instance‏ 
(الآلة العطلة = 
{Faulty Machine‏ 
1(M1)‏ 
2(M2)‏ 
3(M3)‏ 
4(M4)‏ 
5(M5)‏ 
6(M6)‏ 
7(M7)‏ 
8(M8)‏ 
9(M9)‏ 
10(none)‏ 


Quality of Parts - gabl جودة وحدات‎ 


xi 


O — æ = = æ e ed 
سانيا ان ه ه‎ oon o o 
ات هه داه هو وه ماه ه ه‎ 


= © © © = © هه O = O‏ 
2 سم لام e or OD or‏ 
OH‏ = © — مسر C o O‏ 
مس ات © بت = ي و هب هه ته 


© © oc سم سب = © 2ت‎ © 
oe co oc © ماني یه‎ 2 
eo ceo coc © O o= 


باستخدام البيانات التدريبية اللحددة ف الجدول ۰۱-۳ نقوم بحساب ما بلى: 
م البي 2“ ِ م بحساب ما يلي 


n =10 
Nny=1 = 9 ny=0 =i 
Ny=1ax,=1 = 1 My=1ax,=0 = 8 Nyzoex=1=9 Nysoax,=0 = 1 


=O Nysoax=-0 > 1‏ سره نع 8 = Nynigx,-0‏ 21 ادير را 
1 = 20ید Ny=18x521 = 1 Nyp1ex,=0 = 8 Ny=0 &x3=1 7 0 Ny=0‏ 
1 = یدومع 9 = هه 6 = Ry=1&xq=0‏ 3 = ودبع 1-18 


nyzo&x;=0 = 1‏ 0 = ود ۳-0( 7 = Nysiax.=0‏ 2 = سود 18 را 


vi‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات لامتكشاف bui‏ التصنيف والتنبق 


Ny=0&x,=0 = 1 
nyz0 &x7=0 =1 
Ny=0&x—-0 = 1 


Ny=0&x9=0 = 1 


رقم الحالة 

Instance 
(الآلة امعطلة‎ 

(Faulty Machine 


1 (M1,M2) 
2(M2,M3) 
3(M1,M3) 
4(M1,M4) 
5(M1,M6) 
6(M2,M6) 
7(M2,MS) 
8(M3,M5) 
9(M4,M7) 
10(M5,M8) 
11(M3,M9) 
12(M1,M8) 

13(M1,M2,M3) 

14(M2,M3,M5) 
15(M2,M3,M9) 
16(M1,M6,M8) 


=- OO rr أت‎ ce oc Or = = Onm 


Ny=0 & 21 =0 
Ny=9 &xXg=1 =0 


Ny=0&xg=1 = Û 


Ny=1& xg=0 7 7 
=18 X7=0 or 4 
Ny=1% xg=0 = 5 


Ny=1& وه‎ 20 = 6 


الجدول (۲-۳) 
تصنيف سجلات البيانات في مجموعة البيانات التدريبية الخاصة بالكشف عن أعطال نظام التصنيع 


x 


هه = دان تت جح تج O- >o.‏ -= سم ندم O‏ 


O --- O- OH O شه‎ orem = 


استکشاف البيانات: نظريات وخوارزمیات وأمثلة 


Attribute Variables - متشيرات الخاصية‎ 
(Quality of Parts - (جودة وحدات المنتج‎ 


— = æ = O - O O - O = — س ن‎ O 


* 


— = =æ =æ a O O- O O- Se = Oe 


ny=i& xar = 4 


1-8 2-1 = 3 


عبر الهدف 


Target Variable 


سم سم از ع نے سے مس بس مر سے پس نے ل ن ان 


(System Fault y 


(عطل النظام 


الصنفة 


Ep 0, 0, 0, 1, 0, 0: بي‎ tang A A S 
على النحو التالي:‎ 1,0,1) 


9 9 
- = ۳ ny=1 Ny=1& x; 
ره ۵ج‎ | Pars =] كل‎ 


5 et Ny=1 &xy=1 smi &x2=0 et & x3=0 بر‎ et & x4=0 


n Ny=1 =1 =1 19-1 
5 Ny=1 & x521 5 Ny=1 & xg=0 5 Ny=1 8 x7=1 
Ny=1 ny=1 Ny=1 
5 Ny=1 & xg=0 5 Ny=1 & xg=1 
Ny=1 Ny=1 
_ 3 (Sx دج بای مره ی‎ 2x2 x2 x) 0 
` 1019 91 9 9 9 9 9 و" "و9‎ 
2 n 
Ny = ۰ 
at y=0 y=0&x 
p(y = o| [Pew = 0) ==] [=e 
i= n £4 Ny=0 
[=1 
5 ( Ry=0&x,=1 J Ry=0& x30  My=O&xy=0 | My=0&x,=0 
n Ny=0 Ny=0 =0 Ny=0 
Ny=0 &x5=1 5 Ny=0 & xg=Û 9 Ny=0 & x7=1 
Ny= &xp= n =0 =1 
x y=0 28 0 x y=0 & xg ) 
t ) ویر برع ما2 برش برش برد‎ xix] 0 
۰ 1011 1 1 1 1 1 1 1 1 


۷۸ استکشاق البیانات: نظریات وخوارزمیات وأمغلة 


خوارزميات لاستكشاف آنماط التصنیف والتنبؤ 


7 m LE ALTANA TILT A Le Ti oe ان رها‎ 


WS MRT a 


p ۰‏ 
(هذه النتيجة تعني أن النظام 95 ۱ 
به أعطال) 1= Ymar ~ arg max o>] [Pem‏ 


يمكن تصنيف الحالات من رقم ۲ إلى ٩‏ في الجدول ۱-۳ وجميع الحالات في الجدول ۲-۳ على 
نحو مماثل للحصول على 1 = year‏ لأنه يوجد 21 :7 و 20/1 Ay=0‏ / زد بنيووسرة؟ < 
مما يجعل 0 = )0 = ply = OP(x|y‏ يتم تصنيف الحالة رقم ۱۰ في الجدول ۱-۳ بالقيم 
x = 00000000 0)‏ على النحو التالي: 


Pp 5 5‏ 
(هذه النتيجة تعني أن النظام 9 0 
ليس به أعطال) 0= Ymap 2۶ arg marr] [Pel‏ 


ومن ثم. يتم تصنیف جمیع الحالات في الجدولین ۱-۳ و۲-۲ بشکل صحیح بواسطة مصنف 
بييز الیسیط. 


۳-۳ البرمجيات والتطبيقات (Software and Applications)‏ 
تدعم حزم البرمجيات التالية تعلم مصنف بییز البسيط: 
e Weka (hittp://www.cs.waikato.ac.nz/ml/weka/)‏ 
e MATLAB ® (hitp://www.mathworks.com)‏ 
ولقد تم تطبيق مصنف بييز البسيط بنجاح في العديد من الجالات Le‏ في ذلك تصنيف 
النصوص والوثائق» والموجود على الرابط: 


(http://www.cs.waikato.ac.nz/~eibe/pubs/FrankAndBouckaertPKDD 
O6new.pdf) 


استكشاف البيانات: نظريات وخوارزميات وأمثلة ۷۹ 


الجز 0 الثاني 


(Exercises) التمارین‎ 


۱۳ 


۳۳ 


۳.۳ 


£-¥ 


قم ببناء مصنف jus‏ البسيط لتصنيف التغير الهدف من متغير الخاصية في بيانات 
البالون (Balloon data set)‏ الواردة في الجدول ۰۱-۱ ومن تم تقييم أداء التصنيف 
لمصنف بییز البسيط من خلال حساب ما هي النسبة المئوية لسجلات البيانات في 
مجموعة البيانات التي يتم تصنيفها بشكل صحيح بواسطة مصنف بييز البسيط. 

في بيانات الحلقات الدائرية في مكوك الفضاء Space shuttle O-rings data)‏ 
(set‏ الواردة في الجدول ۲-۱ افترض أن متغير الخاصية ضغط التحقق من التسرب 
(leak-check pressure)‏ كخاصية نوعية ذات ثلاث قيم نوعية» وأن عدد الحلقات 
الدائرية ذات الأحمال الثقيلة (number of O-rings with stress)‏ كمتغير هدف 
نوعي ذي ثلاث قيم نوعية. قم ببناء مصنف بییز البسيط لتصنيف متغير الهدف: 
الحلقات الدائرية ذات الأحمال الثقيلة. من متغير الخاصبة: ضغط التحقق من 
التسرب ومن ثم قم بتقييم أداء تصنيف مصنف بييز البسيط من خلال حساب النسبة 
المئوية لسجلات البيانات في مجموعة البيانات التي يتم تصنيفها بشكل صحيح 
بواسطة مصتف بييز البسيط. 

قم ببناء مصنف بييز البسيط لتصنيف التغیر الهدف من متغيرات الخاصية في 
مجموعة بيانات العدسات (lenses data set)‏ المحددة في الجدول ۳-۱ ومن ثم 
قم بتقييم أداء تصنيف مصنف بييز البسيط من خلال حساب النسبة المئوية لسجلات 


البيانات في مجموعة البيانات التي يتم تصنيفها بشكل صحيح بواسطة مصتف بييز 
البسيط. 


قم ببناء مصنف بييز البسيط لتصنيف المتغير الهدف من متغيرات الخاصية في 


مجموعة البيانات ا موجودة في التمرين ۱-۱ ومن ثم قم بتقييم أداء تصنيف مضت 
بييز البسيط من خلال حساب النسبة المئوية لسجلات البيانات في مجموعة البيانات 


التي يتم تصنيفها بشكل صحيح بواسطة مصنف بييز البسيط. 


استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوارزميات لاستکشاف أنماط التصنيف والتنيق 


£- أشجار sa‏ ولانحدار 
Decision and Regression Trees‏ 
تستخدم أشجار القرار والانحدار للتعرف على أنماط التصنيف والتنبؤ من البیانات» 
والتعبير عن العلاقة بين متغيرات الخاصية × مع التغیر F(x) y Sigil‏ = بل على شكل 
شجرة. تقوم شجرة القرار بتصنيف قيمة الهدف النوعي لسجل بيانات باستخدام قيم 
الخاصية الخاصة بها. بينما Lad‏ شجرة الانحدار بقيمة الهدف الرقمية لسجل بيانات 
باستخدام قيم الخاصية الخاصة بها. 
في هذا الفصل» سنقوم Vol‏ بتعريف شجرة القرار الثنائيةء وسنتناول أيضاً الخوارزمية التي 
تقوم معرفة وتعلم شجرة قرار ثنائية من مجموعة بيانات ذات متغيرات خاصية نوعية عديدة 
ومتغير هدف نوعي واحد. ثم يتم وصف طريقة التعرف على وتعلم شجرة القرار غير الثنائية. 
وسيتم التطرق إلى مفاهيم إضافية للتعامل مع متغيرات الخاصية الرقمية؛ والقيم المفقودة 
متغيرات الخاصية. والتعامل مع متغير الهدف الرقمي لبناء شجرة الانحدار. وسيتم استعراض 
قائمة بحزم برمجية لاستكشاف البيانات التي تدعم تعلّم أشجار القرار والانحدار. سيتم أيضاً 
استعراض بعض التطبيقات الخاصة بأشجار القرار والانحدار مع ذكر مراجعها. 
oles ۱-۶‏ شجرة القرار الثنائية وتصنيف البيانات باستخدام شجرة القرار 
(Learning a Binary Decision Tree and Classifying Data Using a‏ 
Decision Tree):‏ 
في هذا الجزء يتم استعراض pols‏ شجرة القرار, وتقوم دوال انتقاء الانفصال ) Split‏ 
(selection methods‏ بتقديم الأساس المنطقي لبناء شجرة قرار ذات وصف طوله يكون 
بالحد الأدنى. And]‏ سيتم توضيح LAS‏ بناء شجرة قرار من الأعلى إلى الأسفل. 


ELSA ARCS مرو‎ ORI 


ع-١-١ pols‏ شجرة القرار {Elements of a Decision Tree)‏ 
يبين الجدول ۱-۶ جزءاً من مجموعة البيانات لنظام تصنيع ما وا موضحة بشكل كامل في 
الجدول ۶-۱. حيث تتضمن مجموعة البيانات في الجدول ۱-۶ تسعة من متغيرات الخاصية 
لجودة وحدات المنتج» ومتغير هدف واحد يوضح ما إذا كان النظام معطلاً أم لا. يتم استخدام 
مجموعة البيانات هذه كمجموعة بيانات تدريبية لاستخلاص شجرة قرار ثنائية لتصنيف ما 
إذا كان النظام معطلاً أم لا باستخدام قيم متغيرات الجودة التسعة. ويبين الشكل ١-6‏ شجرة 


استكشاف البيانات: GL Bi‏ وخوارزميات وأمثلة AY‏ 


الجزه الثاني 
à SEIT‏ 


القرار الثنائية الناتجة ۳ 3 شجرة القرار. وسوف يتم توضيح الكيفية التي تم بها 
استخلاص شجرة القرار هذه في مکان آخر. وکما هو Guo‏ في الشکل A-E‏ فان شجرة القراز 
الثنائية عبارة عن رسم Gly‏ ذي عدة عقّد (nodes)‏ حيث تقع عقدة الجذر (root node)‏ 
في أعلى الشجرة وتتكون هذه العقدة من جميع سجلات البيانات في مجموعة البيانات 
التدريبية. 

بالنسبة لمجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع» تحتوي عقدة 
الجذر على مجموعة مكونة من كل سجلات البيانات العشرة في مجموعة البيانات التدريبية, 
}1< 2..... 10{ لاحظ أن الأرقام في مجموعة البيانات هي أرقام لكل حالة على حدة. يتم 
فصل السجلات الموجودة في عقد الجزر إلى مجموعتين فرعيتين. }2 4 8. 9 10 ] و(1 3 
5 6 7{ وذلك باستخدام متغير الخاصيةء X7‏ واثنين من القيم النوعية لهذا المتغيرء 7× 
0 = و[ = 7× جميع الحالات في المجموعة الفرعيةء }2 4 9.8 10{ تكون بها قيمة 
x7= 0‏ وجميع الحالات في المجموعة الفرعية» cl}‏ 3 6.5 7{ تكون بها قيمة قيمة 1 = xy‏ 
يتم تمثيل كل مجموعة فرعية كعقدة في شجرة القرار. 

)١-6( الجدول‎ 

مجموعة البیانات الخاصة بالكشف عن أعطال نظام التصنيع 
متغیرات الهدف Target‏ 

Variables 

عطل النظام 

(System Fault), y 


Attribute Variables - متغيرات الخاصية‎ 


رقم الحالة 

Instance 
- (الآلة المعطلة‎ 
(Faulty Machine 

1(M1) 
2(M2) 
3(M3) 
4(M4) 
5(M5) 
6(M6) 
7(M7) 
&(M&) 
9(M9) 

10(none) 


Quality of Parts - gail) جودة وحدات‎ 


ooo‏ سا اي هت ه بت هه 
هت نا سر بت OOO‏ اي هت 
ooo- eH OH oe‏ 
oo‏ س و ه مب و و هي ه 
= وه هم هو سا و هت وه ه ه 

off‏ سر سر سای تن و و ه ه 
ه ه شرن ه ه هت ه ه ه 
ه سات هت ه وه ه هت ه ه 
سات هو هو و ه ه هي داه 


AY‏ استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


خوار زميات لامتكشاف bul‏ التصنيف ف والتنبق 


الشكل (۱-۶) 
شجرة القرار الخاصة بالكشف عن أعطال نظام التصنيع 


41,2, 3,4, 5, 6 7, 8,9, 10} 


(TRUE) m~a (FALSE) خاطی‎ 


}10 ,9 ,8 ,4 ,£2 
70 و 


{1, 3, 3,6, 7} 


(TRUE) صحيح‎ 


ويستخدم التعبير النطقي في شجرة القرار للتعبير عن 0 = x7‏ باستخدام 0 X7=‏ 
كتعبير منطقي صحيح ATRUE)‏ و = x7‏ باستخدام 0 x7=‏ كتعبير منطقي blè‏ 
(FALSE)‏ ويسمى 0 = x7‏ بشرط الانقسام أو الانفصال (معيار الانقسام أو الفصل) 
وقيمها الصحيحة (TRUE)‏ والخاطئة (FALSE)‏ تسمح بانقسام GLS‏ بلجموعة السجلات 
في عقدة الجذر إلى فرعين بوجود عقدة في نهاية كل فرع. كل من العقدتين الجديدتين يمكن 
أن تنقسم إلى مزيد من العقد باستخدام أحد متغيرات الخاصية المتبقية في معيار الانقسام, 
أو الفصل. ولا يمكن تقسيم عقدة ما yo‏ أخرى إذا كانت سجلات البيانات في مجموعة 
البيانات في هذه العقدة لها قيمة المتغير الهدف نفسه. وتصبح هذه العقدة عندئذ عقدة 
ورقة (leaf node)‏ في شجرة القرار. وباستثناء عقدة الجذر وعقدة الورقة. فإن العقد 
الأخرى في شجرة القرار تسمى العقد الداخلية „(internal nodes)‏ 

يمكن لشجرة القرار أن Abad‏ سجل بيانات معيناً عن طريق تمرير سجل البيانات من 
خلال شجرة القرار باستخدام قيم متغيرات الخاصية في سجل البيانات. على سبيل TEM‏ يتم 
فحص سجل البيانات للحالة رقم ۱۰ أولاً مع شرط الانفصال الأول في عقدة الجذر. وحيث 


استكشاف البيانات؛ نظريات وخوارزميات وأمثلة AY‏ 


الجزء الثاني 


إن 0 = 7ند يتم تمرير سجل البياثات إلى الفرع الأيسر من الشجرة. تي 
ثم 0 = X9‏ يتم تمرير سجل البيانات وصولاً إلى عقدة الورقة أقصى اليسار. ويأخذ سجل 
البيانات القيمة الهدف لعقدة الورقة تلك, 0 = y‏ والذي يصنف سجل البيانات على أنه 


۲-۱-۶ شجرة القرار ذات طول الوصف الأصغر 
(Decision Tree with the Minimum Description Length):‏ 

ابتداء من عقدة الجذر المحتوية على جميع سجلات البيانات في مجموعة البيانات 
التدريبية» هناك تسع طرق ممكنة لتقسيم عقدة الجذر باستخدام متغيرات الخاصية التسعة 
بشكل فردي في شرط الانفصال. ولكل عقدة في نهاية فرع الشجرة بعد انقسام عقدة الجذر, 
يوجد ثماني طرق ممكنة لتقسيم العقدة باستخدام كل من متغيرات الخاصية الثمانية 
المتبقية بشكل فردي. 

وتستمر هذه العملية, ويمكن أن ينتج عنها العديد من أشجار القرار الممكنة. كل أشجار 
القرار الممكنة تختلف في حجمها وتعقيدها. يمكن لشجرة القرار أن تكون كبيرة بحيث يكون 
لديها عدد من عقد الأوراق مساوياً لسجلات البيانات في مجموعة البيانات التدريبية بحيث 
تكون كل عقدة ورقة محتوية على سجل بيانات واحد ويمكن أن نتساءل. أي أشجار القرار 
الممكنة ينبغي أن يستخدم لتمثيل F‏ وهي العلاقة بين متغيرات الخاصية مع متغير الهدف؟ 
تهدف خوارزمية شجرة القرار إلى الحصول على أصغر شجرة القرار التي يمكنها تمثيل F‏ 
وهو ما يعني» شجرة القرار التي تتطلب الحد الأدنى من طول الوصف (وتسمی شجرة القرار 
ذات طول الوصف الأصغر). بافتراض أن لدینا WS‏ من شجرة القرار الصغرى وشجرة a‏ 
الكبرى التي تصنف جميع سجلات البيانات في مجموعة البيانات التدريبية بشكل صحيح 
فمن المتوقع أن شجرة القرار الصغرى ble east‏ التصنیف بشکل أفضل من شجرة 7 
الكبرىء وأن أنماط التصنيف الأفضل وا مُعممة تسمح بتصنيف أفضل طزید من نقاط البيانات 
بما في ذلك نقاط البيانات غير الموجودة في مجموعة البيانات التدريبية. لنفترض أن لدينا 
شجرة قرار كبيرة بها عدد من عقد الأوراق مساو لسجلات البيانات في مجموعة البيانات 
التدريبية بحيث تكون كل عقدة ورقة محتوية على سجل بيانات واحد. على الرغم من أن 
شجرة القرار الكبيرة هذه تقوم بتصنيف كافة سجلات البيانات التدريبية بشكل صحیح. إلا 


At‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات لاستکشاف ف bul‏ ال التصنيف والتنیز 


أن أداءها قد يكون ad‏ عند تصنيف سجلات بيانات جديدة غير موجودة في مجموعة 
البيانات التدريبية. 


ويعود ذلك إلى أن سجلات البيانات الجديدة هذه تحتوي على مجموعة قيم جديدة 
ومختلفة عن تلك الموجودة في سجلات البيانات في مجموعة البيانات التدريبية. ومن ثم لا 
تسلك نفس مسارات سجلات البيانات وصولاً إلى عقد الورقة في شجرة القرار. نحن بحاجة 
إلى شجرة قرار تقوم بتمثيل أنماط تصنيف معممة للعلاقة F‏ كلما زاد مستوى التعميم 
للعلاقة F‏ قصر طول الوصف الخاص بها لأنها تخفي الاختلافات البسيطة بين سجلات 
البيانات الفردية. ومن ثم كلما صغرت شجرة القرارء كبرت قدرة التعميم لشجرة القرار كما 
هو متوقع لها أن تكون. 
۲-۱-۶ طرق انتقاء الانفصال (Split Selection Methods)‏ 

سعياً إلى شجرة قرار ذات حد Gol‏ لطول الوصف. نحتاج إلى معرفة كيفية انقسام أو 
فصل عقدة ما حتى نتمكن من تحقيق الهدف المتمثل في الحصول على شجرة القرار ذات 
Gal a>‏ لطول الوصف. لنأخذ Yis‏ يوضح كيفية بناء شجرة قرار من مجموعة البيانات في 
الجدول ۱-۶. هناك تسع من الطرق الممكنة لفصل عقدة الجذر باستخدام متغيرات الخاصية 
التسعة بشکل فردي» كما هو مبين في الجدول ۲-۶. 

أي معاير الانقسام أو الانفصال التسعة يتوجب استخدامه لكي نحصل على أصغر شجرة 
قرار؟ النهج ابلتعارف عليه لانتقاء طريقة الانفصال هو اختیار الانفصال الذي ينتج عنه 
مجموعات بیانات فرعية أكثر تجانساً. مجموعة البیانات التجانسة هي مجموعة البیانات 
التي یکون لسجلاتها قيمة متغير الهدف نفسه. يوجد مقاییس متنوعة يتم استخدامها لقیاس 
تجانس البیانات مثل: مقیاس عشوائية ابلعلومات (Information entropy)‏ ومؤشر جيني 
{gini - index)‏ إلخ )2003 (Breiman et al., 1984;Quinlan, 1986; Ye,‏ 


يتم استخدام مقياس عشوائية ا لمعلومات بشكل آساسي لقياس عدد بتات (Bits)‏ أو 
خوينات» المعلومات اللازمة لتشفير البيانات. يتم تعريف عشوائية المعلومات كما يلي: 


استكشاف البيانات: نظريات وخوارزميات وأمثلة Ao‏ 


c 


)£-1( يع 8- م = entropy(D)‏ 
i=1‏ 
۳ 0 = 08,0[ 0- 
€ 
Pi = 1 (¥-£)‏ > 
121 
حيث إن 


D‏ تشير إلى مجموعة البيانات الأعطاة. 

© تشير إلى عدد قيم الهدف المختلفة. 

تشير إلى احتمال أن سجل بيانات معين في مجموعة البيانات يأخذ قيمة 
الهدف ‏ . 
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خوارزميات لاستكشاف أنماط التصنيف والتنبؤ 


Er ee ee ملک که‎ AT te E LT Taaa که‎ 0۳1۳۳ a 2 لدع‎ ee a 


الجدول (6-؟) الانفصال الثنائي لعقدة الجذر والعملية الحسابية لقيمة مقياس عشوائية المعلومات 
لمجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع 


شرط الانفصال أو الانقسام المجموعات الفرعية الناتجة ومتوسط مقياس عشوائية المعلومات للانفصال 
Resulting Subsets and Average Information Entropy of Split Split Criterion‏ 
x, = 0: TRUE or FALSE‏ )1{ ,}10 ,9 ,8 ,7 ,6 ,5 ,4 ,2,3( 


entropy )5( = entropy (Don) +i entropy (Drs) 


9 1 
)»د‎ ETE 1)3 xo= 0.45 
(1, 3, 4, 5, 6, 7, 8, 9, 10}, (2} I; = 0: TRUE or FALSE 


entropy )5(- entropy (Dom) + L entropy (Dpi) 


E TE لا‎ E 
“70 «(loss وماج‎ )+ 10 <0 045 
(1,2, 4,5,5,7, ne 10}, (3) xg = O: TRUE or FALSE 


entropy )5( = entropy (Die) +35 T entropy (Dee) 
a xf Sigg 1 
۹ سوت‎ ios} 3) w% 306 
(1,5, 6,7,8,9, (2,3, 4} x, = 0: TRUE or FALSE 
entropy )5( د‎ 7 entropy (Dew) +i entropy (Das) 
7 3 
- ل موماط - ع موعا-) سک‎ [ +5 0-041 
]2, 3, 4, 6,7, 8, 9, 10), {1, 5) xg = 0: TRUE or FALSE 
8 
entropy )5( = entropy (Da) + entropy (Dea) 
8 7 7 1 2 
موه )گت‎ - hogt [+ 10 —x0=0.43 
(1, 2, 4, 5, 7, 8, 9, 10}, {3, 6۱ ید‎ = 0: TRUE or FALSE 
entropy (5) = Ê entropy (Dine)+ entropy (Dn) 


8 7 
=—x] -> مس‎ 0 
a دع چ‎ Z-ig) x0=0.43 


{2, 4, 8, 9, 10), (1, 3, 5, 6, 7} xy = 0: TRUE or FALSE 


ee‏ ی 
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تابح الجدول (2-6) الانفصال GUII‏ لعقدة الجذر والعملية الحسابية لقيمة مقياس عشوائية 
المعلومات ملجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع 


شرط الانفصال أو الانقسام آلجموعات الفرعية الناتجة ومتوسط مقياس عشوائية ال معلومات للانفصال 
Resulting Subsets and Average Information Entropy of Split Split Criterton‏ 
Xs = 0; TRUE or FALSE‏ )8 ,4 ,3 ,2{ ,}10 ,9 ,7 ,6 ,5 ,1{ 


entropy (5)=-É entropy (Dw) + entropy (Ds) 


6 5 5 [1 1), é n 
=É (log $ - بوم‎ 3) +f x0-029 


)2, 3, 4, 6,7,8, 10], ۱1,5, 9[ 3y = TRUE of FALSE 


entropy (S)= entropy (Dier) +=- entropy (D) 


7 6, 6 1 1 PE OPa 
= 2x (Slog ایک‎ ++ 10 ۲ 21 


تقع قيمة العشوائية (entropy value)‏ في النطاق [0,logec]‏ على سبیل JEL‏ في 
مجموعة البیانات في الجدول ۱-۶ لدینا 2 = » (لقيمتي الهدف, 0 = y‏ و1 Pi (y=‏ 
٩( = 9/029‏ من ۱۰ سجلات بها قيمة الهدف 0= P2 = 7/10<0.1 «Cy‏ (۱ من 
۰ سجلات بها قيمة الهدف 1= 0 و 


2 
entropy(D) = > -8 log,P; = -0.9 log, 0.9 — 0.1 log, 0.1 = 0.47. 


i=1 


يوضح الشكل ۲-۶ كيف أن قيمة عشوائية ا معلومات تتغير مع Py (P2 = 1 - Pi)‏ عندما 
تكون 6-2©. ,وبصورة خاصة» يكون لدینا: 
P2=0.5, entropy (D) = [‏ ,05 حر ٠‏ 
entropy (D) = 0‏ ,أحرط ,0 حرم ٠‏ 
P2=0, entropy (D) = 0‏ ,1 درم ٠‏ 


AA‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات لا لاستکشاف bul‏ التصنيف والتنبؤ 


إذا كانت كل سجلات البیانات في مجموعة البیانات تأخذ قيمة الهدف نفسهاء یکون 
لدینا 0-ترصمر, P51‏ أو P2=0 P=)‏ وتكون dad‏ عشوائية المعلومات هي صفر. 
وهو ما يعنيء أننا بحاجة إلى عدد صفر من بتات (bits)‏ أو خوینات» المعلومات LAY‏ نعرف 
مسبقاً قيم الهدف الذي اتخذته جميع سجلات البيانات. ومن ثم فان قيمة عشوائية 
ا معلومات المساوية للصفر تشير إلى أن مجموعة البيانات متجانسة فيما يخص قيمة متغير 
الهدف. إذا كان لنصف مجموعة واحدة من سجلات البيانات نفس قيمة piia‏ الهدفه 
وللنصف الآخر من المجموعة قيمة هدف آخری, يكون لدينا P2=0.5< P1=0.5‏ وتكون 
قيمة عشوائية المعلومات هي 1 وهذا يعني أننا نحتاج إلى ous‏ بت واحد gl)‏ خوينة 
واحدة) من المعلومات لإيجاد قيمة الهدف. ومن ثم فان قيمة عشوائية المعلومات تشير 
إلى أن مجموعة البيانات غير متجانسة. عندما نستخدم مقياس عشوائية المعلومات لقياس 
تجانس البیانات» فإنه كلما انخفضت قيمة عشوائية العلومات» تجانست مجموعة البيانات 
بالنسبة لقيمة متغیر الهدف. 


بعد انفصال مجموعة البیانات إلى عدة مجموعات فرعية» يتم استخدام اللعادلة التالية 
لحساب قيمة متوسط عشوائية المعلومات للمجموعات القرعیة: 


0 
entropy(S) = 3 Tel entropy(D,) (€-£) 


veValues(S) 


استكشاف البيانات: نظريات وخوارزميات وأمثلة M‏ 


عشوائية ا معلومات 


مقياس عشو 
© 
~d‏ 


st 


“ 


انيه 
entropy (D)‏ 


المعلومات 


0 01 02 03 04 05 06 07 08 09 1 
Pj 


S‏ تشر إلى الانقصال. 
Values (S)‏ تشر إلى مجموعة القيم التي يتم استخدامها في الانفصال 

Values (S) تشر إلى قيمة موجودة في‎ y 

D‏ تشر إلى مجموعة البيانات التي يتم فصلها. 

|| تشير إلى عدد سجلات البيانات في مجموعة البيانات D‏ 

تشير إلى المجموعة الفرعية الناتجة عن الانفصال باستخدام قيمة 
الانفصال v‏ 
|2| تشر إلى عدد سجلات البيانات في مجموعة البيانات Dy‏ 


على سبيل JEL‏ عقدة الجذر لشجرة قرار مجموعة البيانات في الجدول ١-6‏ لها مجموعة 
البيانات }10 ,... ,2 D = fI,‏ حيث قيمة عشوائية العلومات تساوي ۰,۶۷ كما هو 


.۹ استكشاف البیانات؛ نظريات وخوارزميات وأمثلة 


خوارزميات لاستكشاف bul‏ التصتيف البو 


موضح ۳7 pn‏ معيار الانفصال, 0 = (TRUE) :x X1‏ أو (FALSE)‏ يتم تقسيم 
عقدة الجذر إلى قسمين فرعیین: القسم الأول }1{ > مورورلك وهو متجانس, والقسم الثاني 
Dirue = {2,3,4,5,6,7,8,9, 10}‏ وهو غير متجانس بوجود ثمانية سجلات قيمة الهدف 
لها واحد. وسجل بیانات واحد يأخذ قيمة الهدف صفر. متوسط عشوائية العلومات 
للمجموعات dic Ail‏ الائنتن بعد الانفصال هو: 


9 
entropy(S) = Tg مها‎ Dirue) + 7 t= ~ entropy (Drais) 
== x(-51 Š 1 2+ ۹ 0.45. 
= 19 ~ Ug 082379 0823) * T0 


حيث إن dad‏ متوسط عشوائية المعلومات للمجموعات الفرعية بعد الانفصال أفضل من 
قيمة عشوائية ا معلومات ل (D)=0.47‏ فإن هذا الانفصال بحسن من تجانس البيانات. 
یوضح الجدول ۲-۶ متوسط عشوائية ا لمعلومات للمجموعات الفرعية بعد إجراء كل من 
الانفصاليات الثمانية الأخرى لعقدة الجذر. من بين الانفصالات التسعة الممكنة. فان 
الانفصال الذي يستخدم العیار 0 = (TRUE) x7‏ أو (FALSE)‏ ينتج عنه المتوسط الأقل 
لعشوائية العلومات» مما يدل على مجموعات فرعية أكثر تجانساً. ومن ثم OB‏ معيار 
الانفصال 0 = (TRUE) x7‏ أو (FALSE)‏ يتم اختياره لفصل عقدة الجذرء مما ينتج dis‏ 
عقدتان داخليتان كما هو مبين في الشكل ۱-۶. العقدة الداخلية مع المجموعة الفرعيةء }2 
4 10.9.8{ ليست متجانسة. ومن ثم تتفرع شجرة القرار هذه إلى المزيد من الانفصالات 
حتى تصبح جميع عقد الأوراق متجانسة. 


يتم تعريف مؤشر جيني (gini - index)‏ مقياس آخر لتجانس البیانات» على النحو التالي: 


gini(D) = 1 — >»: P? (0-£) 
i=1 


على سبيل JÈ‏ وباستخدام مجموعة البيانات المعطاة في الجدول ۱-۶ يكون لدينا C=2‏ 
9 = رص P2=0.1‏ و 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۹۹ 


الجزء الثاني 


2 E TE Sa لي“ الم‎ 


č 
gini(D) = 1 — 0 P? = 1- 0,9۶ - 0.1? = 0.18 
i=1 
Pi والقيم التالية د‎ C52 يتم احتساب قيم مؤشر جيني ل‎ 
٠ حرط‎ 0.5, P2= 0.5, gini (D)=1-0.5°-0.=0.5 
٠ P= 0, P=], gini (D)=1- 02- 1420 
٠ P= 1, P2=0, gini (D)=1- 12- P= 0 


ومن ثم كلما صغرت قيمة مؤشر جيني, كانت مجموعة البيانات أكثر Listes‏ يتم حساب 
متوسط قيمة مؤشر جيني للمجموعات الفرعية للبیانات بعد الانفصال» على النحو التالي: 


5 D| . . 
gini(S) = > 9 Dj gini(D,) (1-£) 
veValues(S) 


يوضح الجدول ۳-۶ متوسط قيمة مؤشر جيني للمجموعات الفرعية بعد إجراء كل من 
الانفصالات التسعة لعقدة الجذر طلجموعة البيانات التدريبية الخاصة بالكشف عن الأعطال 
بنظام التصنيع. من بين التسعة انفصالات الحتملة» فإن معيار الانفصال ل 0 = X7‏ 
(TRUE)‏ أو (FALSE)‏ ينتج عنه أصغر قيمة طتوسط مؤشر جينيء والذي يشير إلى 
المجموعات الفرعية SY‏ تجانساً. يتم اختيار معيار الانفصال 0 = (TRUE) x7‏ أو 
(FALSE)‏ لفصل عقدة الجذر. ومن ثم. فان استخدام مؤشر جيني قد نتج عنه الانفصال 
نفسه المستخدم مع مقياس عشوائية ا معلومات. 


۶-۱-۶ خوارزمية بناء شجرة القرار من أعلى إلى أسفل 
(Algorithm for the Top-Down Construction of a Decision Tree):‏ 
يصف هذا الجزء ويوضح خوارزمية بناء شجرة قرار کاملة. تكون خطوات خوارزمية 
بناء شجرة القرار الثنائية (البناء من أعلى إلى أسفل) كالتالي: 


ay‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات 1 لاستکشاف ah lal‏ التصنیف والتنيؤ 


-١‏ ابدأ من عقدة الجذر التي تشتمل على جميع سجلات البيانات nae‏ البیانات 
التدريبية واختر هذه العقدة لإجراء الانفصال. 

-Y‏ قم بتطبيق Mo‏ انتقاء الانفصال للعقدة المختارة لتحديد أفضل انفصال والذي 
giles‏ مع معيار الانفصال» ثم قم بتقسيم مجموعة سجلات البيانات التدريبية 
الموجودة في العقدة المختارة إلى عقدتين مع مجموعتين فرعيتين لسجلات البیانات» 
على التوالي. 

۳- افحص ما إذا كان معيار التوقف عن التكرار قد تحقق. إذا كان الأمر کذلك» يكون 
قد اكتمل بناء الشجرة؛ خلاف EUS‏ يتم العودة إلى الخطوة ۲ للاستمرار في اختيار 
عقده ة أخرى يتم فصلها. 

یقوم معیار التوقف عن التکرار والبني على أساس تجانس البیانات بایقاف التکرار في 

الخوارزمية lotic‏ یکون لدی کل عقدة من عقد الورقة بيانات متجانسة» وهو ما يعني» 
مجموعة سجلات البیانات GIS‏ نفس القيمة الهدف. bf‏ العدید من مجموعات البیانات 
الكبيرة والحقيقية Sale‏ ما تکون مشوشة وغير نقيةء مما یجعل الأمر صعباً للحصول على 
مجموعة بیانات متجانسة في عقد الورقة. ومن ثم غالباً ما يتم ربط معیار التوقف عن 
التكرار في الخوار زمية بمقياس لتجانس البیانات لیکون العیار أصغر من dad‏ محددة على 
سبيل JEL‏ يتم التوقف عن التكرار عندما يكون مقياس عشوائية المعلومات أقل من 
(entropy (D) > 0.1)‏ فيما يلي سيتم توضيح كيفية بناء شجرة قرار ثنائية كاملة 
ممجموعة بيانات الكشف عن أعطال نظام التصنيع. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة ay‏ 


الجزء الثاني 


الجدول (P-E)‏ الانفصال الثنائي لعقدة الجذر والعملية الحسابية لقيمة مؤشر جيني لمجموعة البيانات 
الخاصة بالكشف عن أعطال نظام التصنيع 


شرط الانفصال أو الانقسام 
Split Criterion‏ 


المجموعات الفرعية الناتجة ومتوسط قيمة مؤشر جيني للاتفصال 
Resulting Subsets and Average Gini-Index Value of Sptit‏ 


x, = 0: TRUE or FALSE 


x, = 0: TRUE or FALSE 


x, = 0: TRUE or FALSE 


TRUE or FALSE‏ :0 ديد 


xs = 0: TRUE or FALSE 


(2,3, 4, 5, 6, 7, 8, 9, 10}, (1} 


gini(S)=— gini (Dae) +E gini (Dam) 


G-E Jee 


(1,3, 4, 5, 6, 7,8,9, 10}, {2} 


gini(S)=— gini(Dine)+ = giri (Dra) 


9 1۳ 28۷۱ 1 
MEA 4 nS 18 
3i- -(3) -(3) | 0. 


1, 2, 4, 5, 6, 7, 8, 9, 10), {3} 


gini(S) = gini (Dine) + > gini (Dean) 


TOREA 


(1,5, 6, 7, 8, 9, 10}, (2, 3, 4) 


gini(s)= 7 gini(Dn.)+ -= gini (Dss) 


و 


{2, 3, 4, 6, 7,8, 9, 10}, {1, 5} 
5 8&8 2 
gini (S) = تمنع‎ (Dine) + 2 (سر) نمنع‎ 


Girne‏ ات 


- 


يسبع 


استكشاف البيائات: نظريات وخوارزميات وأمثلة 


خوار زمیات لاستکشاف a bil‏ التصنيف ولتت 


تابع الجدول (۴-۶) الانفصال ی لعقدة الجذر والعملية الحسابية لقيمة مؤشر جيني لمجموعة 


البیانات الخاصة بالکشف عن أعطال نظام التصنیع 


شرط الانفصال أو الانقسام 
Split Criterion‏ 


x, = 0: TRUE or FALSE 


xy = 0: TRUE or FALSE 


Xg = Û: TRUE or FALSE 


x, = 0: TRUE or FALSE 


المجموعات الفرعية الناتجة ومتوسط قيمة مؤشر جيني للانفصال 
Resulting Subsets and Average Gini-Index Value of Split‏ 
}6 ,3{ ,)10 ,9 ,8 ,7 ,5 ,4 ,2 ,11 


gini(s)= = > Bit (Daa) + Z giri(Dun) 
=5 (1-2) (=a 


(2, 4, 8, 9, 10}, {L 3, 5, 6, 7} 


gini(s)= = gini (Dew) +2 gini (سرط)‎ 


_5 4۱ ۱ 5 
{1, 5, 6, 7, 9, 10}, {2, 3, 4, 8} 
6 4 
gini(S)= jg (Dne) + (سع) تقلع‎ 
_6 s 1y} 4 
-fE -G ioo 
{2,3, 4, 6, 7, 8, 10), )1, 5, 9} 


(Date)‏ تمزع > +) Z gint (Din‏ د -(5) تمزع 


7 6۲ (17). 3 
z- 8 -(3) م[‎ 0.17 


استكشاف الييانات: نظريات وخوارزميات وأمثلة 40 


المثال (۱-۶): 


قم clin‏ شجرة قرار ثنائية لمجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع 
في الجدول ۱-۶. 

علينا Vol‏ استخدام مقياس عشوائية (information entropy) Gloglat!‏ كمقياس 
لتجانس البيانات. وكما هو Que‏ في الشكل ۱-۶ يتم تقسيم مجموعة البيانات في عقدة 
الجذر إلى مجموعتین فرعیتین» (2 4 8 9 10{ و(ل 3 5 6 47 والتي تظهر بالفعل 
متجانسة مع القيمة الهدف»1 = بل ولیست بحاجة إلى الانقصال. بالنسبة للمجموعة 
الفرعية. D={2,4,8,9,10}‏ 


Z 1 14 4 
entropy(D) = > -P;logzP; = - = log, =~ = loge = = 0.72. 
1-1 


فيما عدا متغير الخاصية 17« والذي تم استخدامه لتقسيم عقدة الجذر, فان متغيرات 
الخاصية الثمانية الأخری» زر 702 X8 Xó + 275 2 Mb > X3‏ ۰ 9 مکن استخدامها لتقسيم 
D‏ 


AE RS aa TTT TTT IDI FM ار‎ E E 201907 aa L ho" TT A سسب بج بمج‎ 
استكشاف البيانات: نظريات وخوار زميات وأمثلة‎ ۹۹ 


خوارزمیات لاستکشاف bu)‏ 1 التصنیف ٠‏ والتنيق 


الجدول (E-E)‏ الانقسام الثناني للعقدة الداخلية مع }10 D={2,4,5,9,‏ وحساب white‏ عشوائية 
امعلومات لمجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع 


شرط الانفصال أو الاتقسام المجموعات الفرعية الناتجة ومتوسط مقياس عشوائية المعلومات للانفصال 
Resuiting Subsets and Average Information Entropy of Split Split Criterion‏ 
x, = 0: TRUE or FALSE‏ }2{ ,}10 ,9 ,8 ,14 


entropy )5( = “entropy (De) + entropy (Pe) 


4 3 8 1 1١ 1 
= معا )ی‎ 94 8 2+20 = 0.64 
{8, 9, 10}, (2, 4) x, = 0: TRUE or FALSE 


entropy )5( ع‎ 3 entropy (Dom) + entropy (Dese) 


(9, 10}, (2, 4, 8} ولا‎ = 0: TRUE or FALSE 
2 3 
entropy {5) = gentropy (Dine) + entropy (Di) 
od مو‎ -Llog عبر چا‎ 
= 2 7 082 5 3 182 مرب‎ 0.4 
(2, 4, 8, 10), {9} وا‎ = 0: TRUE or FALSE 
entropy )5( - entropy (Dine)+ = entropy (Du ) 


معايير الانفصال التي تستخدم x350 X150‏ 0حوين و x6=0‏ لا ينتج عنها تقسيم ل 
D‏ ويوضح الجدول €-€ العمليات الحسابية مقياس عشوائية المعلومات لغرض الانفصال 
باستخدام X9 X8 X7 X4 X2‏ وها أن معیار الانفصال, 0 = (TRUE) : xs‏ أو (FALSE)‏ 
ينتج عنه أصغر قيمة لمتوسط مقياس عشوائية ا معلومات,» فإنه يتم اختيار معيار الانفصال 


استكشاف البیانات: نظريات وخوارزميات وأمثلة av‏ 


الجزم الثاني 


هذا لشیم )248910( aie‏ .}19,10 248 ا 
القيم الهدف, 1 Y=‏ وليست بحاجة إلى الانفصال. ويبين الشكل ۱-۶ هذا الانفصال. 
بالنسبة للمجموعة الفرعية, D={9,10}‏ 


2 


1 1 1 
entropy(D) = >: -8 log, P; = -3 log; = 777 A 2 1. 
i=1 


فيما عدا متغيرا الخاصية 7× وو واللذين تم استخدامهما لتقسيم عقدة الجذرء فان 
متغيرات الخاصية السبعة الأخرى» e X2 XI‏ ود 4× ء ونا » ۰26 2:9 GLE‏ استخدامها لتقسيم 
D‏ معايير الانفصال التي تستخدم x3=0 X250 X150‏ 0-وبن X550‏ و 6-20 لا ينتج 
عنها تقسيم DS‏ معيار الانفصال 0 = (TRUE): x9‏ أو (FALSE)‏ ينتج ais‏ 
مجموعتين قرعیتین» /9] بالقيمة الهدف 1 = بر » و/70/ بالقيمة الهدف 7 Y=‏ والتي 
تظهر متجانسةء وليست بحاجة إلى الانفصال. 

يبين الشكل ١-6‏ هذا الانفصال. ولأن جميع عقد الورقة لشجرة القرار أصبحت 
متجانسة. فإنه يتم إيقاف عملية بناء شجرة القرار بظهور شجرة قرار كاملة كما هو مبين 
في الشكل ۱-۶. 


mr fal اس‎ a a سم بسي جا 7777 لاا تعن ةا‎ a a A ETT TT FR a a 
استكشاف البيانات: نظريات وخوارزمیات وأمثلة‎ ۹۸ 


خوار زميات الاستكشاف bul‏ التصنيف ٠‏ والتیق 


الجدول )€-0( الانقسام FLN‏ للعقدة الداخلية المحتوية على (2,4,5,9,10]<(ل وحساب مؤشر 
جيني لمجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع 


ا مجموعات الفرعية الناتجة ومتوسط قيمة مؤشر 


شرط الانفصال أو الانقسام - Split‏ جيني للانفصال 
Resulting Subsets and Average Gini-Index Criterion‏ 


Value of Split 


{4, 8, 9, 10), {2} Xz = Û: TRUE or FALSE 
gini(s)= $ gini (Dr. )+Ë gini( Ds.) 
_4 3۷ (1V}.1_,_ 
-$4(1-(3) -(3) | 10-0 
{8, 9, 10}, (2, 4} 
gini(s)= Zaini (Dm) +E gini (Dye) x4 = 0: TRUE or FALSE 
3 3۷ 1۲۱ م2‎ 
-34(1-(2) -(3) همم(‎ 
{9, 10}, {2, 4, 8( 
gint(s) = Žgini (Dew) +2 gini (Dj) 
2 1۲ f1y}. 3 
-24{1-(3) (3) عمجن[‎ 
)2, 4, 8, 10}, {9) 
gini(s) =< gini(D,,.)++ giri (Dss) 


xg = 0: TRUE or FALSE 


Ay). 
-$+(1-(3) “GJ ود مهي[‎ = 0: TRUE or FALSE 


وسوف نوضح GV!‏ عملية بناء شجرة قرار باستخدام مؤشر جيني كمقياس لتجانس البيانات. 
كما هو موضح Lisle‏ يتم تقسيم مجموعة البيانات في عقدة الجذر إلى مجموعتين فرعيتين» 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۹۹ 


الجزء الثاني 


ee ۳1 98 42}‏ .653 176 والتي تظهر بالفعل متجانسة مع القيمة الهدف.حيث 
1 = نز وليست بحاجة إلى الانقسام. بالنسبة للمجموعة الفرعية. D={2,4,8,9,10}‏ 


À 42 ۶ 
gini(D) = 1 — 0 P? - 1- (=) = 6 = 0.32. 
i=1 


معيار الانفصال باستخدام أي من 0=:×. 0-زين 5-0 و 0= لا ينتج dis‏ انقسام 
DI‏ يوضح الجدول 0-6 Alec‏ حساب قيم مؤشر جيني للانفصالات باستخدام 2 4× 
۰ ۲9۰۶ . ما أن معيار الانفصال, (TRUE) : x8=0‏ أو (FALSE)‏ « ينتج عنه أصغر 
قيمة لمتوسط مؤشر جيني للانفصال» يتم اختيار معيار الانفصال هذا لتقسيم 
D=£2,4,8,9,10}‏ إلى }10 19 f2,4,8}9‏ والتي تظهر فعلياً متجانسة مع القيم الهدفه 
1 = نزء وهي ليست بحاجة إلى الانقصال. 


بالنسبة للمجموعة الفرعية, D={9,10}‏ 


c 1 2 1 2 
gini(D) = 1 -Y P? we 6 5 6 = 05. 
= 2 2 


فيما عدا متغيرا الخاصية X8 X7‏ واللذين تم استخدامها لتقسيم عقدة الجذر فان 
متغيرات الخاصية السبعة الأخری, X99 ۵:6 XS » ×4 . X3 ×2 XI‏ ممكن استخدامها 
لتقسيم D‏ معايير الانفصال التي تستخدم x3=0 x2=0. x1=0‏ (احوين (احوين و x6=0‏ 
لا ينتج عنها تقسيم د 2 معيار الانفصال E x3=0‏ أو (FALSE)‏ ينتج ais‏ 
مجموعتان فرعيتان. }9{ بقيمة الهدف 1 y=‏ و/10/ بقيمة الهدف YEO‏ والتي تبدو 
متجانسة, وليست بحاجة di‏ الانفصال. ولأن جميع عقد الورقة لشجرة القرار أصبحت 
متجانسة» فانه يتم إيقاف عملية clis‏ شجرة القرار بظهور شجرة قرار ALIS‏ وهي شجرة 
القرار نفسه التي تستخدم مقياس عشوائية امعلومات كمقياس لتجانس البيانات. 


۱.۰ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوارزمیات لاستكشاف bul‏ التصنيف jelly‏ 


۵-۱-6 تصنیف البیانات باستخدام شجرة القرار 
(Classifying Data Using a Decision Tree):‏ 

يتم استخدام شجرة القرار لتصنيف سجل البيانات عن طريق تمرير سجل البيانات إلى 
عقدة الورقة في شجرة القرار باستخدام قيم متغيرات الخاصية. وإسناد قيمة الهدف الخاصة 
بعقدة الورقة لسجل البيانات. 

یبرز الشكل ۲-۶ مسار تمرير سجل بيانات التدريب باللون الداکن» للسجل رقم ٠١‏ 3 
الجدول A-E‏ ابتداء من عقدة الجذر إلى عقدة الورقة بقيمة لمتغير الهدف. y=0‏ ومن ثم 
فإنه يتم تصنيف سجل البيانات رقم ٠١‏ بدون عطل في النظام. بالنسبة لسجلات البيانات في 
مجموعة البيانات الاختبارية الخاصة بالكشف عن الأعطال بنظام التصنيع الموضحة في الجدول 
1-6 فإنه يتم الحصول على القيم الهدف الخاصة بالسجلات باستخدام شجرة القرار في الشكل 
۱-6 وهي موضحة في الجدول €-1. يسلط الشكل ۶-۶ الضوء على مسار تمرير سجل بيانات 
اختباري للسجل رقم ١‏ في الجدول 1-٤‏ من عقدة الجذر إلى عقدة الورقة ذات القيمة الهدف. 
1 = . ومن ثم. يتم تصنيف سجل البيانات هذا على أنه يحتوي على Jhe‏ في النظام. 

الشكل (6-؟) 

تصنيف سجل بیانات بدون عطل نظام باستخدام شجرة القرار الخاصة بالكشف عن أعطال نظام التصنيع 


{l, 2, 3, 4 5, 6, 7, 8, 9, 10} 
x0 


)1, 3 5,6, 7} 


(TRUE) صحيح‎ (FALSE) خاطئ‎ 


(2,4, 8,9, 10} 
x20 


. (FALSE) خاطی‎ 


(TRUE) صحيح‎ 


(TRUE) صحيح‎ (FALSE) خاطئ‎ 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 1۰1 


الجزء الثاني 


2 ie Tae 


POTS aE LIT I eS ire AEC e ا‎ OS a LET DOL: Se A A TDS Ne I Coes PI ST a G 


الجدول )£-1( 


تصنيف سجلات البيانات مجموعة البيانات الاختبارية الخاصة بالكشف عن أعطال نظام التصنيع 
رقم الحالة متغيرات الخاصية - Attribute Variables‏ متغير الهدف Target - y‏ 
Instance‏ (جودة وحدات النتج ~ Variable (Quality of Parts‏ 
(الآلة المعطلة - (أعطال النظام - System‏ 
{Faults (Faulty Machine‏ 


القيمة القيمة المصنفة 
الفحلية ت) 
Value)‏ 


Xi 


fal 


1 (M1,M2) 
2(M2,M3) 
3(M1,M3) 
4(M1,M4) 
5(M1,M6) 
6(M2,M6) 
7(M2,MS5) 
8(M3,M5) 
9(M4,M7) 
10(M5,M8) 
11(M3,M9) 
12(M1,M8) 
13(M1,M2,M3) 
14(M2,M3,MS5) 
15(M2,M3,M9) 
16(M1,M6,M8) 


ee ee ee ë 
مس مر منم خر مت سس مس مس مخ لس مس من امسو عسو مسو‎ 

O =‏ = لم e æ æ æ = O OD- OOF‏ عفر 
o p ee ieee OO ee‏ — 
ete u eh‏ — 
اسم OF SG — = Or O-‏ اعم سم نم © 
Q‏ = د GG‏ ن2 © © ¬ 2 Or GG‏ = لم DOD-‏ 
گس ممت Gnu OO‏ ناه ا هت Cee er‏ 
—-oorer CG COE CP ee Cor = = — ¬‏ 


۱۲ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوارزمیات لاستکشاف آماط ال التصنيف والتنبؤ 


الشکل (6-ع) 
تصنیف سجل بیانات لأعطال متعددة الآلات باستخدام شجرة قرار خاصة بالکشف عن أعطال نظام التصنیع 


(TRUE) صحیع‎ (FALSE) خاطی‎ 


42:4, 8, 9, 10} 
I40 


(TRUE) صحيح‎ 


(Learning a Nonbinary Decision Tree) شجرة القرار غير الثنائية‎ ols ¥-€ 


يوجد ثلاث قيم نوعية طتغیر الخاصية, العمر (age)‏ في مجموعة البيانات الخاصة 
بالعدسات في الجدول ۲-۰۱ والقيم هي: شاب (Young)‏ ما قبل الشيخوخة. (Pre-‏ 
presbyopic)‏ والشيخوخة ( Presbyopic‏ ). إذا أردنا slo‏ شجرة قرار ثنائية بلجموعة 
البيانات هذه. فنحن بحاجة إلى تحويل القيم النوعية الثلاثة sith‏ الخاصية العمر (age)‏ 
إلى قيمتين نوعيتين عند استخدام العمر لتقسيم عقدة الجذر. قد نضع الفئتين: شاب وما 
قبل الشيخوخة معاً في فئة واحدة, وتكون الفئة: الشيخوخة في فئة آخری. ويكون معيار 
الانفصال كما يلي: العمر = الشيخوخة صحيح أو خطأ. بإمكاننا ایضاً وضع الفئة: شاب كفئة 
واحده والفئتين: ما قبل الشيخوخة. والشيخوخة bee‏ في فئة أخرىء ويكون شرط أو معيار 
الانفصال كما يلي: العمر = شاب: صحيح أو خطا. لكنء يمكننا بناء شجرة قرار غير ثنائية 
للسماح بتقسيم مجموعة بيانات لعقدة ما إلى أكثر من مجموعتين قرعيتين باستخدام القيم 
النوعية المتعددة لكل فرع من الانقسام. 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۱۰۳ 


المثال ۲-6 يوضح LAS‏ بناء شجرة قرار غير ثتائية المجموعة بيانات العدسات. 


المثال 6-؟: 

قم ببناء شجرة قرار غير ثنائية بلجموعة bly‏ العدسات في الجدول 1-1 إذا استخدم 
متغير الخاصية. العمر - age‏ لتقسيم عقدة الجذر لمجموعة بيانات العدساتء فإنه هکن 
استخدام كل القيم النوعية الثلاثة ل "العمر" لتقسيم مجموعة سجلات البيانات المكونة من 
۶ سجل في عقدة الجذر باستخدام معيار الانقسام العمر = شاب» قبل الشيخوخة أو 
الشيخوخة. كما هو موضح في الشكل ۵-۶. يتم استخدام مجموعة البيانات المكونة من ۲۶ 
سجل موضحة في الجدول ۲-۱ على أنها مجموعة البيانات التدريبي D‏ في عقدة الجذر 
لشجرة القرار غير الثنائية. في مجموعة بيانات العدسات. المتغير الهدف له ثلاث قيم نوعية, 
وهي العدسات غير اللاصقة الخارجية (Non-Contact)‏ موجودة في ۵ سجلء» والعدسات 
اللاصقة الطرية (Soff-Contact)‏ موجودة في 0 dew‏ والعدسات اللاصقة الصلبة 
(Hard-Contact)‏ موجودة في ۶ سجلات. باستخدام مقياس عشوائية المعلومات كمقياس 
لتجانس البيانات» يصبح لدينا: 


3 
entropy(D) = 7 - 2 108 


=1 
۳ 15 کل نی‎ 18S 8 Ae dM 
=~ 34 082 24 24 82 24 24 982 4 
= 1.3261. 


ويبين الجدول ۷-۶ عملية حساب مقياس عشوائية المعلومات لتقسيم فرعية عقدة 
الجذر باستخدام معيار الانفصال» معدل خروج الدموع (tear production rate)‏ = 
منخفض (reduced)‏ أو عادي (normal)‏ والذي ينتج dis‏ مجموعة فرعية متجانسة 
وأرقام سجلاتها A‏ 3 ک 7 9 11 13 15 17 19 21 23{ ومجموعة فرعية أخرى 
غير متجانسة }2,4,6,8,10,12,14,16,18,20,22,24{- ويبين الجدول ۸-۶ Alec‏ 
حساب مؤشر مقياس عشوائية لتقسيم العقدة المحتوية على مجموعة البيانات (2 4 6 
8 10 12 14 16 18 20 22 24{ باستخدام معيار الانقسام» اللابؤرية 


eg A E e iin n n kk e ODED E nS tS ft السك‎ 
م استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ 


خوارزميات لاستكشاف btt‏ التصنيف والتنبق 


ELTA‏ ۳9 ور( 06 FIE LT EAE INET NIIPA ETI TL ¢ MANETTE S T Sb SMITE OT, MIT SRST TPN ALD ERE‏ مرو ا CELIS EIEII A EE. E OE‏ رنه 


6 2( والتي تنتج عنها مجموعتان فرعيتان‎ (Yes) أو نعم‎ (No) Y = (astigmatic) 
{24 20 16 12 8 و4‎ {22 18 14 0 


gues‏ الجدول ٩-۶‏ عملية حساب مقياس عشوائية امعلومات لتقسيم العقدة المحتوية 
على مجموعة البيانات }2 6 ۰10 14 18 22{ باستخدام معيار الانقسام. العمر (Age)‏ 
= شاب (Young)‏ قبل الشیخوخة (Pre-presbyopic)‏ . أو الشيخوخة 
(Presbyopic)‏ التي تنتج ثلائة مجموعات فرعية }2 6{ }10 14) و(18 22]. يتم 
تقسيم هذه المجموعات الفرعية علاوةٌ على ذلك باستخدام معيار الانقسام الوصفة الطبية 
p = (Spectacle prescription)‏ النظر (myope)‏ أو بعد النظر 
(hypermetrope)‏ للحصول على عقد الورقة ذات مجموعات بیانات متجانسة. ويبين 
الجدول ۱۰-۶ عملية حساب مقياس عشوائية المعلومات لتقسيم العقدة المحتوية على 
مجموعة البیانات }4 8 ۰12 16 20 24{ باستخدام معیار الانقسام» الوصفة الطبية - 
قصر النظر أو بعد النظرء والتي تنتج مجموعتین فرعیتین }4 12 20) و(8 16 24). ویتم 
تقسیم هذه ا مجموعات الفرعية باستخدام معیار الانقسام؛ العمر = شاب قبل الشيخوخة, 
أو dd gut‏ لانتاج عقد الورقة ذات مجموعات بیانات متجانسة. ویبین الشکل 0-6 شجرة 
القرار غير الثنائية الکاملة لجموعة ble‏ العدسات. 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۱۰4۵ 


۱۰1 


استكشاف البیانات: نظریات وخوارزمیات وأمثلة 


TA a5 
ITET الواج0‎ 9۱۱۵۱۵9 


leek)‏ 02 ا عمجم 
ل ESS‏ ونا روا“ ملع وا 


tre‘ot‘at 


gry (9dogxwadíH)‏ جر 


الشكل (ع-0) شجرة القرار ملجموعة بيانات العدسات 


الجزه الثاني 


خوار زمیات تاف bil‏ التصتيف والتنبؤ 


aT SI SR OT‏ ا LT ET‏ و 


الجدول (ع-۷) الانفصال غير pr‏ لعقدة الجذر وعملية حساب مقياس عشوائية المعلومات 


بلجموعة بيانات العدسات 
شرط الانفصال أو الانقسام المجموعات الفرعية الناتجة ومتوسط مقياس غشوائية المعلومات للانفصال 
Resulting Subsets and Average Information Entropy of Split Split Criterion‏ 
Age= Young,‏ ,20 ,19 ,18 ,117 ,}16 ,15 ,14 ,13 ,12 ,11 ,10 ,9 ,)8 ,7 ,6 ,5 ,4 ,3 ,2 ,1( 
Pre-presbyupic, or‏ )24 ,23 ,22 ,21 
entropy (S) = -E entropy (Oram) + -= entropy (Drno)‏ 
العمر = شاب. ما قبل الشيخوخة. : 8 
أو الشيخوخة EPY (Dray)‏ كد + 
wf(-fon$-2oe-foo2)‏ 


)3 صوصخ )دوه 


8 {6 Dh ft 1, 1| 
E Blom gles ggg 8 


11, 2, 3,4, 9, 10, م11‎ 12 17 18, 19, 201, (5, 6, 7,8, 13, 14, 15, 16, 21, Spectacle Prescription = 
22, 23, 24} Myope or Hypermetrope 
12 12 
entropy )5( - entropy (Dugg )+ 3 entropy )8, التشخيص البصري = ( سسبو‎ 
2 ۳1 التظر أو بعد النظر‎ pod 
=a” (-2 ge وا وم‎ S| 
12] 8, 8 3 
(ea 7) 
= 12866 
{1, 2, 5, 6, 9, 10, 13, 14, 17, 18, 21, 22}, (3, 4, 7,8, 11, 12, 15, 16, 19, Astigmatic = No or Yes 
20,2324) 0 
entropy (S) = = entropy (Du )+ entropy (Dra) اللابؤرية = لا أو نعم‎ 
2f 7, 7 S$, 5 مه‎ 0 
i e Beep ae) 
12 
+ - وما‎ 12 -fez واگ‎ ` 
= 1 
(1, 3, 5,7, 9, 11, 13, 15, 17, 19, 21, 23), (2. 4, 6, 8, 10, 12, 14, 16, 18, Tear Production Rate = 
entropy (s) = 2 2 entropy (Dassen) + entropy (Dram) = الدموع‎ gah معدل‎ 
-By 12 0 متخفض أو طبيعي‎ 
=a” ~e e” 9 5) 
12 5 4 
“a (-3 Pn pea 55) 
=07773 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۱۷ 


الجزء الثاني 


الجدول (۸-۶) الانفصال غير الثناني للعقدة الداخلية (ك 4 86 10 12 14, 16 18 20 22 24{ 
وعملية حساب مقياس عشوائية المعلومات مجموعة بیانات العدسات 


شرط الانفصال أو الانقسام المجموعات الفرعية الناتجة ومتوسط مقياس عشواتية المعلومات للانقصال 
Resulting Subsets and Average Information Entropy of Split Split Criterion‏ 
Age = Young, Pre-presbyapic, or‏ )24 ,22 ,20 ,18{ ,}16 ,14 ,12 ,10{ ,)8 ,6 ,4 .2( 
Presbyopic‏ 


4 
entropy )5( - 7, entropy (Dons)‏ 
العمر = شاب ما قبل الشيخوخة, أو 
الشخوخة entropy (Drees)‏ + 


4 2 
=E موم 9-5 وهای‎ E) 


itt a mer T 


=13333 
12, 4, 10, 12, 18, 20), {6, 7, 14, 16, 22, 24} 


Spectacle Prescription = Myope or 
entropy (5)= -É entropy (Dupe. } Hypermetrope 


التشخيص البصري = pad‏ النظر أو 
بعد النظر +É entropy (Dmte)‏ 


6 1 1 2 2 3 3 
a pos: وماج - لج‎ E 3 


6 2 2 3 3 1 1 
+ مه )د‎ ri g87 -7.8 2) 
=14591 
i2, 6, 10, 14, 18, 22}, ]4, 8, 12, 16, 20, 24} Astigmatic = No or Yes 
6 
entropy (s)= entropy (Dı) اللابؤرية = لا أو تعم‎ 
+ entropy (Drs) 


fy‏ - ماج وماج 


food‏ سس 


= 0,7842 


VA‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات لاستكشاف أنماط التصنيف والتنبق 


FEE NERSE a OIE t SS 


الجدول )3-6( 
الانفصال غير الثنائي للعقدة الداخلية )2 6 ۰10 ۰14 18 22{ وعملية حساب مقياس عشوائية 
المعلومات لمجموعة bly‏ العدسات. 


شرط الانفصال أو الاتقسام ابلجموعات الفرعية الناتجة ومتوسط مقياس عشوائية المعلومات للانفصال 
Resulting Subsets snd Average Information Entropy of Split Split Criterion‏ 
Age = Young, Pre presbyopic,‏ }22 ,18) ,)14 ,10{ ,}6 ,2{ 
Presbyopic‏ 0۶ 2 2 
entropy (S) = J ertropy (Drea) + entropy (Dway)‏ 
العمر = شاب ما قبل الشيخوخة. أو entropy (Dratert)‏ + 
الشيضوخة 


2 0 0 2 2 0 0 
a ET E A M E) 


2 0 0 2 2 0 0 
2) زو‎ 2-1083) 
2 1 1I 1 1 0 0 
+x (ios: ME LE BE GE 
=03333 
(2, 10, £8}, (6, 14, 22} Spectacle Prescription = Myope 


j 5 or Hypermetrope 
entropy (S)= entropy (Dumm) + entropy (Dispos ) التشخيص البصري = فصر النظر أو‎ 


بعد النظر 2 1 


0 0 2 1 3 
مج سای = 


3 (0, 03, 3 0 0 
ار‎ -Sio 8 oe, 2 log, = 
+2) و3‎ 0825 iog, $) 


= 0.4591 


Y-t‏ التعامل مع القيم الرقمية والقيم المفقودة لمتغيرات الخاصية 
(Handling Numeric and Missing Values of Attribute Variables):‏ 
إذا كانت مجموعة البيانات تحتوي على متغير خاصية )08 « يحتاج المتغير إلى أن يتحول 
إلى متغير نوعي قبل استخدامه لغرض بناء شجرة القرار. سنستعرض الطريقة الشائعة تعمل 
هذا التحول. لنفترض أن لدينا متغير خاصية رقميء X‏ لديه القيم الرقمية التالية في مجموعة 
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الجزه الثاني 


البيانات التدريبية. +4 .......22» ,4 » والتي يتم فرزها بترتيب متزاید تصاعدي. النقطة Ja‏ 
القيمة الوسطی لقیمتین رقميتين متجاورتن» Gi‏ و Aj‏ یتم حسابها على النحو التالي: 


di + a; 
¢ = =o (v-£) 


الجدول (۱۰-۶) الانفصال غير GLY‏ للعقدة الداخلية }4 8 12 ۰16 20, 24{ وعملية حساب 
مقياس عشوائية امعلومات لمجموعة بيانات العدسات. 


شرط الانفصال أو الانقسام المجموعات الفرعية الناتجة ومتوسط مقياس عشوائية المعلومات للانفصال 
Resulting Subsets and Average Information Entropy of Split Split Criterion‏ 
Age = Young, Pre-presbyopic,‏ )24 ,20{ ,}16 ,12( ,}8 ,4( 
or Presbyopic‏ 2 2 
entropy (5)= entropy (Dram) + = entropy (Dirrie)‏ 
العمر = شاب. ها قبل الشيخوخة. أو 
الشخوخة } entropy (Drai‏ + 
2x 2-22 39‏ 
2 ۹2 2 ۳2 2 6 
lige 2‏ 90 2 
lees 3-3 toe oB)‏ )دج 
1 1 0 
leer 2 -387 2720% 3)‏ 4( 
0.6667= 
Spectacle Prescription = Myope‏ }24 ,16 ,18 ,}20 ,12 ,4{ 
or Hypermetrope‏ 


entropy )5( = Š entropy (Darm. }+ S entropy (سسممو)‎ 
شخ = نظ أو‎ 
6 
خروم )شه‎ og, S- 510g) 
6 3 3 3 3 3 3 


=0,4591 


We‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات تست bul‏ اتسيف gully‏ 


باستخدام Ci‏ حيث,۸-1,... ,۶ هکننا إنشاء القیم النوعية التالية والتي عددها 1+ k‏ 
كقيم E‏ 
Category 1: x SC‏ 
Category 2: C > 2 > 1‏ 


Category k: Ck-1 2 >> Ck 
Category k + 1: Ch > ۰ 


يتم تحویل القيمة الرقمية د × إلى قيمة نوعية وفقاً للتعريف المذكور آنفاً للقيم النوعية. 
على سبيل JEL!‏ إذا رعک>, فإن القيمة النوعية ل × هي الغئة )2 (Category‏ 

في العديد من مجموعات البیانات» قد tod‏ متغير خاصية بدون قيمة في سجل بيانات 
ما. على سبيل امثال» إذا كان هناك متغيرات خاصية للاسم. والعتوان. وعنوان البريد 
الإلكتروني للعملاء في قاعدة بيانات متجر ماء قد لا يكون هناك عنوان البريد الإلكتروني 
لعميل معين. وهو ما يعني, أنه قد تكون لدينا عناوين بريد إلكتروني مفقودة لبعض العملاء. 
إحدى الطرق معالجة سجل بيانات يحتوي على قيمة مفقودة هو بتجاهل سجل البيانات. 
لکن» عندما تكون مجموعة البيانات التدريبية صغيرق فنحن بحاجة إلى جميع سجلات 
البیانات لمجموعة البيانات التدريبية حتى تتمكن من بناء شجرة القرار. ولاستخدام سجل 
بيانات يحتوي على dad‏ مفقودة. قد نكون بحاجة إلى تقدير القيمة الفقودة. واستخدام 
القيمة التقديرية لملء القيمة المفقودة. بالنسبة طتغیر الخاصية النوعي» هكن تقدير القيمة 
المفقودة الخاصة به لتكون القيمة الأكثر شيوعاً في غالبية سجلات البيانات في مجموعة 
البيانات التدريبية التي لها نفس القيمة لمتغير الهدف مثل تلك الموجودة في سجل البيانات 
ذو القيمة المفقودة متغير الخاصية. وبالنسبة لمتغير الخاصية الرقمي» هكن تقدير القيمة 
المفقودة الخاصة به لتكون قيمة متوسط القيم التي يتم اتخاذها من قبل سجلات البيانات 
في مجموعة البيانات التدريبية التي لها قيمة المتغير الهدف نفسه مثل تلك الموجودة في 
سجل البيانات ذي القيمة المفقودة path‏ الخاصية. وترد أساليب أخرى لتقدير القيمة 
المفقودة في )2003 (Ye,‏ 
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٤-٤‏ التعامل مع متغير الهدف ا وبناء شجرة الانحدار 
(Handling a Numeric Target Variable and Constructing a‏ 
Regression Tree):‏ 
إذا كان لدينا prio‏ هدف رقميء فإنه لا يمكن تطبيق مقاييس تجانس البيانات» مثل: 
مقياس عشوائية العلومات» ومؤشر جيني. ويقدم dle»‏ وآخرون ( Breiman et al.,‏ 
4 اللمعادلة رقم V-€‏ لحساب متوسط اختلاف القيم عن قيمة متوسطهاء R‏ واستخدامه 
لقیاس تجانس البیانات لبناء شجرة الانحدار عندما تکون نیم المتغير الهدف رقمية. متوسط 
الاختلاف للقیم في مجموعة بیانات من قيمة متوسطها يشير إلى Gao‏ کون القیم متشابهة 
أو متجانسة. LISS‏ كانت قيمة R‏ آصغر. كانت مجموعة البیانات أكثر تجانساً. العادلة £- 

٩‏ تبين عملية حساب متوسط قيمة R‏ بعد الانقصال: 


8)0( =Y - (۳ e 


yED 
y= Lyen Y (4-€) 
n 
|Dyl 
R(S) = رو‎ FP) و‎ 
veValues(S) 


de game‏ البيانات الخاصة بمكوك الفضاء في الجدول ۲-۱ تحتوي متغير هدف رقميء وأربعة 

متغيرات خاصية رقمية. يتم حساب قيمة R‏ لجموعة البيانات D‏ لسجلات البيانات ال ۲۳ 
3 + &- ینم با کي = : 

في عقدة الجذر لشجرة الانحدار igh LS‏ 


_0+1+0+0+040+0+0+1+1+1+ 0+ 0+ 2+0+0+0+0+0+0+0+0+ 1 
1 23 
= 0.3043 
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خوار زميات = nen bul‏ ب والتنیز 


R(D) = To - 9)? = (0 — 0.3043}? + (1 — 0.3043)? + (0 — 0.3043)? + (0 - 0.3043) 


yED 
+ )0- 0.3043)? + (0 — 0.3043)? + (0 — 0.3043}? + )0 - 0.3043)? + (1 — 0.3043)? 
+ (1 — 0.3043)? + (1 — 0.3043)? + (0 — 0.3043}? + (0 — 0.3043)? + (2 — 0.3043)? 
+ (0 — 0.3043)? + (0 — 0.3043)? + (0 — 0.3043)? + (0 — 0.3043)2 + (0 — 0.3043)? 
+ (0 — 0.3043)? + (0 — 0.3043)? + (0 — 0.3043)" + (1 - 0.3043)" 
= 6.8696 


وغالباً ما يتم استخدام متوسط قيم الهدف لسجلات البيانات الموجودة في عقدة الورقة 
لشجرة القرار ذات متغير الهدف الرقمي» كقيمة هدف لعقدة الورقة. عند تمرير سجل 
بيانات على طول شجرة القرار لتحديد القيمة الهدف لسجل البیاتات يتم إسناد القيمة 
الهدف لعقدة الورقة حيث يصل سجل البيانات كقيمة الهدف الخاص ب سجل البيانات. 
وتسمى شجرة القرار ذات york!‏ الهدف الرقمي بشجرة الانحدار (regression tree)‏ 


€-0 مزايا وعيوب خوارزمية شجرة القرار 
(Advantages and Shortcomings of the Decision Tree algorithm):‏ 
إن من مميزات استخدام خوارزمية شجرة القرار oled‏ أنماط التصنيف والتنبؤ هو 
التعبير الصریح لأنماط التصنيف والتنبؤ لشجرة القرار والانحدار. تكشف شجرة القرار في 
الشكل ١-6‏ عن ثلاثة أنماط خاصة بجودة قطع الغیار. الأمر الذي يؤدي إلى ثلاثة من عقد 
الورقة ذات التصنيف "عطل في النظام" على التوالي. 
x7=l‏ ه 
x7=0 & xg=l‏ ه 
x7=0 & xs=0 & x=]‏ ه 


والنمط التالي الخاص بجودة القطع لعقدة ورقة واحدة ذات تصنيف "بدون عطل بالنظام": 
e x7=0 & x8= 0 & x9= 0‏ 


bll‏ التصنيف dow pall‏ المذكورة أعلاه تكشف عن المعرفة الأساسية التالية للكشف عن 
أعطال نظام التصنيع هذا: 
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الجزء الثاني 


EY SU LD DLS TTA 


e‏ من بين متغيرات الجودة التسعة. يتضح أن متغيرات الجودة BNI‏ 7×» و ود هي 
ذات أهمية للكشف عن أعطال نظام التصنيع. تسمح لنا هذه المعرفة بالحد من تكلفة 
فحص جودة القطع من خلال فحص جودة القطع بعد الآلات السابعة M7‏ والثامنة 
8 والتاسعة MP‏ فقط بدلاً من فحص الآلات التسع كلها. 

© إذا كان sol‏ هذه المتغيرات الثلاثةء 77 ود oxo‏ يظهر فشلاً في الجودة. فإن النظام 
يكون به عطل؛ وخلاف ذلك, لا پوجد لدى النظام عطل. 


هناك Lad‏ قصور لدى شجرة القرار عند التعبير عن أنماط التصنيف والتنبؤ لأنها تستخدم 
متغير خاصية واحد فقط في معيار الانفصال. هذا قد يؤدي إلى شجرة قرار كبيرة. وفي شجرة 
القرار الكبيرةء يكون من الصعب أن نرى أنماط واضحة للتصنيف والتنبؤ. على سبيل JEL‏ 
في الفصل ١ء‏ قدمنا هط التصنيف التالي لمجموعة بيانات البالون في الجدول ۱-۱: 


IF (Color = Yellow AND Size = Small) OR (Age = Adult AND Act 
= Stretch), THEN Inflated = T; OTHERWISE, inflated = f. 


إذا كان (اللون = pial‏ والحجم = صغير) أو (العمر = راشد والفعل = ممتد) إذن تكون خاصية 
منفوخ = gl) T‏ "صحیح")؛ وإلا تكون خاصية منفوخ = F‏ (أي "خاطيء"). 


هذا النمط لتصنيف قيمة الهدف لحالة منفوخ = T‏ (اللون = الأصفر والحجم = الصغير) 
أو (العمر = راشد والفعل = الامتداد)» يستلزم جميع متغيرات الخاصية الأربعة اللونء 
الحجم, العمرء والفعل. فمن الصعب التعبير عن هذا النمط البسيط في شجرة القرار. لا 
يمكننا استخدام جميع متغيرات الخاصية الأربعة لتقسيم عقدة الجذر. بدلاً من ذلك» علينا 
اختيار متغير خاصية واحد فقط. ويكون متوسط dad‏ مقياس عشوائية المعلومات 
(information entropy)‏ لانفصال ما لتقسيم عقدة الجذر باستخدام كل من متغيرات 
الخاصية الأربعة هو نفسه تاماً كما هو موضح بالعملية الحسابية أدناه: 


ve‏ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوار زمیات لاستكشاف bui‏ التصنیف ف والتنبق 


8 8 
entropy(S) = Tg EPTOPY(Dreuow) +h 5 entropy(Dpurpte) 


8 E 5, 5 3) 
~ 42 * 082 و‎ 7 g 82 و‎ 


6 6 2 2 8 
زج مج - و مهو -) 1+ 
0.8829 = 
نختار عشوائياً اللون = الأصفر (Color = Yellow)‏ أو الأرجوانى (Purple)‏ كمعيار 
الانفصال لتقسيم عقدة الجذر. يوضح الشكل 5-6 شجرة القرار الكاملة بلجموعة بيانات 
البالون. ويتضح أن شجرة القرار كبيرة بسبعة أنماط للتصنيف مما يؤدي إلى سبع عقد من 
عقد الورقةء على التوالي: 
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الجزء £ الاي 


الشكل q-t‏ 
شجرة القرار مجموعة البيانات الخاصة بالبالون 


1516 10114ب U23‏ 
اللون = ؟ 


Color = 7? 
(Yellow) تصفر‎ (Purpte) ارجوتي‎ 
41,2,3,4,5,6,7,8} (9,10, 1,12, 03,14,15,16} 
؟‎ = papell Ta jad 
Size =? Age>? 
(Small) sha (Large) کید‎ {Adult} رد‎ (Child) Jk 
IEEE] 15,5,7,8) (9,11,13,15} [10,12,14,16 
ga = $ gla peli ۲ ۰ لسر‎ fo خاسية منفوخ = خاطی شل‎ 
Inflated = F Ages? Aa=? Inflated = F 
{Aduti) رهد‎ {Child) طفل‎ 
(1234) (56.78) a 
tada خاصية مللوغ < خاطی‎ f 207 
Anam? Inflated > F Ag 
a 


)11,15( }9,13{ منکش {Stretch} es {Dip}‏ 
خلصية منلوخ 2 خاطئ | | خاصية متفوخ د صديع 8 
Inflated = T Inflated = F‏ 
)156,48 )12,34( 
خاصية ملوع ت حالم خی او د سح 


Color = Yellow AND Size = Small, with Inflated = 
Color = Yellow AND Size = Large AND Age = Adult AND Act = 
Stretch, with Inflated = T 

e Color = Yellow AND Size = Large AND Age = Adult AND Act = Dip, 
with Inflated = F 

e Color = Yellow AND Size = Large AND Age = Child, with Inflated = 
F 

e Color = Purple AND Age = Adult AND Act = Stretch, with Inflated = 
T 

e Color = Purple AND Age = Adult AND Act = Dip, with Inflated = F 

e Color = Purple AND Age = Child AND, with Inflated = F 


۱۹۹ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوار زميات لاستكشاف bul‏ التصنيف Sully‏ 


TPA تک(‎ KES IAN TET LCS RIS Mate. OFF id eS SR SE DRE II “ال‎ PE LP TTS KE FS SS OE CORE SINE ee ce PT 


© اللون = أصفر والحجم = صغيرء مع خاصية منفوخ = gl) T‏ "صحيح"). 
© اللون = أصفر والحجم = كبير والعمر = راشد. والفعل = ممتد. مع حالة منفوخ 


gl) 7 =‏ "صحيح"). 
© اللون = أصفر والحجم = كبير والعمر = راشد والفعل = منکمش, مع حالة منفوخ 
F =‏ (أي "خاطئ"). 


© اللون = أصفر والحجم = pS‏ والعمر = طفل مع حالة منفوخ = F‏ (أي "خاطئ "). 
8 اللون = أرجواني والعمر = راشد والفعل = wien‏ مع حالة منفوخ = 7 gl)‏ 


© اللون = أرجواني والعمر = راشد والفعل = منكمشء مع حالة منفوخ = Gl) F‏ 
"خاطی). 


© اللون = أرجواني والعمر = طفل, مع حالة منفوخ = gl) F‏ "خاطئ"). 


من ضمن أنماط التصنیف السبعة المذكورة أعلاهء من الصعب أن نري hé‏ التصنیف 
الیسیط: 


IF (Color = Yellow AND Size = Small) OR (Age = Adult AND Act = 
Stretch), THEN Inflated = T; OTHERWISE, Inflated = f. 


إذا كان (اللون = أصفرء و الحجم = صغير) أو (العمر = راشد و الفعل = ممتد) إذن 
تكون خاصية منفوخ = gl) T‏ "صحیح")؛ وإلا تكون خاصية منفوخ = ۴ (أي "خاطی ). 


وعلاوةٌ على ذلك G‏ اختيار معيار الانفصال الأفضل مع متغير خاصية Joly‏ فقط دون 
النظر إلى تركيب معيار الانفصال هذا مع lehi‏ اللاحقة وصولاً إلى عقدة الورقة يشبه اتخاذ 
القرار الأمثل على الصعيد المحلي فقط دون النظر للصعيد الأشمل والأعم. ليس هناك ما 
يضمن أن اتخاذ القرار الأمثل محلياً في أوقات منفصلة قد يؤدي إلى شجرة القرار الأصغر, أو 
إلى القرار الأمثل على الصعيد الشامل. بالرغم من ذلك» فإن النظر إلى جمیع متغيرات 
الخاصية وتركيباتها لمعايير وشروط كل انفصال تفضي إلى عملية بحث شاملة لجميع القيم 
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sjal‏ زه الثاني 


ا ممكنة لكل متغيرات الخاصية. وهذا مكلف E‏ أو ۳ ay‏ مستحيل E‏ مجموعة 
بيانات كبيرة مع عدد كبير من متغيرات الخاصية. 


(Software and Applications) البرمجيات والتطبيقات‎ 1-6 


يوجد في الموقع الإلكتروني Attp:/Awww.knuggets.com‏ معلومات عن أدوات 
استكشاف البيانات المختلفة. وحزم البرمجيات التالية تدعم تعلم أشجار القرار والاتحدار: 


e Weka (http://www.cs.waikato.ac.nz/ml/weka/) 

e SPSS AnswerTree (hitp://www.spss.com/answertree/) 

e SAS Enterprise Miner (http://sas.com/products/miner/) 

e IBM Inteligent Miner 
(http://www.ibm.com/software/data/iminer/) 

e CART (hittp://www.salford-systems.com/) 

e C4.5 (http://www.cse.unsw.edu.au/quinian) 


بعض التطبيقات الخاصة بأشجار القرار يمكن العثور عليها في )2003 Ye,‏ الفصل Li) )١‏ 
(and Ye, 2001; Ye et al., 2001‏ 
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خوار زعيات لاستكشاف اقاط ال التصنيف ف والتنبق 


, (Exercises) التمارين‎ 


۱-۶ قم clin‏ شجرة قرار ثنائية لمجموعة بيانات البالون في الجدول ۱-۱ باستخدام مقياس 
عشوائية العلومات (information entropy)‏ كمقياس لتجانس البيانات. 


۲-٤‏ قم clin‏ شجرة قرار ثنائية المجموعة بيانات العدسات في الجدول ۳-۱ باستخدام مقياس 
عشوائية العلومات كمقياس لتجانس البيانات. 

۳-6 قم ببناء شجرة انحدار غير ثنائية بلجموعة البيانات الخاصة بمكوك الفضاء في الجدول 
۲-۱ باستخدام متغيري الخاصية: درجة حرارة الإطلاق «(Launch Temperature)‏ 
وضخط فحص التسرب (Leak - Check Pressure)‏ ويتم الأخذ بالاعتبار وجود 
قيمتين نوعيتين طتغیر الخاصية: dejo‏ حرارة الاطلاق والقيمتان هما: 

("منخفضة- “low‏ إذا كانت درجة الحرارة > 60 و"طبيعية "normal-‏ لدرجات الحرارة 
الأخری)؛ Lil‏ متغير الخاصية» ضغط فحص التسرب فيكون له ثلاث قيم نوعية هي 
)50 و100 و200). 


٤-٤‏ قم ببناء شجرة قرار ثنائية أو شجرة قرار غير ثنائية لمجموعة البيانات الموجودة في 
التمرین ۱-۱. 

0-٤‏ قم ببناء شجرة قرار ثنائية أو شجرة قرار غير ثنائية لجموعة البیانات الوجودة في 
التمرین ۱-,۲ 

1-۶ قم ببناء مجموعة بیانات بحيث یکون اختیار الانفصال الأفضل لعقدة الجذر لا يؤدي 
إلى شجرة القرار الأصغر 
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خوار زميات لله barns oe‏ التصنيف والتتبؤ 


4۵ الشبكات العصبية الصناعية 4 للتصنيف والتنيق 


Artificial Neural Networks For Classification And 
Prediction 


يتم تصميم الشبكات العصبية الصناعية )- Artificial Neural Networks‏ 
5 لتحاي بنية الدماغ البشري من أجل إبداع ذكاء اصطناعي مماثل للذكاء البشري. 
ومن ثمء فان الشبكات العصبية الصناعية تستخدم بنية مشابهة للبنية الأساسية للدماغ 
البشري الذي يتكون من خلايا عصبية وروابط بين الخلايا العصبية. حيث تحتوي الشبكات 
العصبية الصناعية على وحدات معالجة مشابهة للخلايا العصبية» وروابط بين الوحدات 
المعالجة. يقدم هذا الفصل نوعين من الشبكات العصبية الصناعية الستخدمة للتصنيف 
والتنیة: الشبكة العصبية الصناعية ذات التغذية الأمامية أحادية الطبقة (Perceptron)‏ 
والشبكات العصبية الصناعية GIS‏ التغذية الأمامية متعددة الطبقات (multilayer‏ 
feedforward ANNs)‏ في هذا الفصل, نقوم أولاً بوصف وحدات المعالجةء وكيف يمكن 
استخدام هذه الوحدات لبناء أنواع مختلفة من معماريات الشبكات العصبية الصناعية. 
نستعرض بعد ذلك الشبكة العصبية الصناعية ذات التغذية الأمامية أحادية الطبقة. وهي 
شبكات عصبية صناعية ذات تغذية أمامية أحادية الطبقة, وطريقة تعلم أنماط التصنيف 
والتنبؤ من خلال الشبكة العصبية الصناعية ذات التغذية الأمامية أحادية الطبقة. أخيراء 
نقوم بوصف الشبكات العصبية الصناعية ذات التغذية الأمامية متعددة الطبقات» ثم وصف 
خوارزمية التعلم بالتوائد الخلفي .(back-propagation learning algoritnn)‏ سيتم 
استعراض حزم من قائمة البرمجيات التي تدعم الشبكات العصبية الصناعية. كما سيتم 
استعراض بعض تطبيقات الشبكات العصبية الصناعية مع المراجع الخاصة بها. 


۱-۵ وحدات المعالجة للشبكات العصبية الصناعية :(Processing Units of ANNs)‏ 


يوضح الشكل ۱-۵ sue]‏ وحدات المعالجة في شبكة عصبية صناعية (ANN)‏ وهي 
الوحدة ‏ حيث تأخذ ode‏ الوحدة عدد p‏ من XIX ».. XP SALI‏ ومدخّلة خاصة 
آخری» 1 = Xo‏ وتنتج مفرحة واحدة هيء 0. Cur‏ يتم ام اطدخلات» X2 ..... XP‏ 
ورد » والمخرجة O‏ لتمثیل المدخلات والخرجات الخاصة مسألة أو مشكلة معينة. لنأخذ 
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الجزء الثاني 


Yta‏ من مجموعة البیانات الخاصة مكوك الفضاء في الجدول ۲-۱. قد 5 Low‏ المتغيرات 
X39 X29 X1‏ لتمثيل درجة حرارة الإطلاق (Launch Temperature)‏ وضغط فحص 
التسرب (Leak—Check Pressure)‏ . والترتيب الزمني للرحلة (Temporal Order‏ 
of Flight)‏ على التوالي. ويكون المتغير © لتمثيل عدد الحلقات الدائرية ذات الأحمال 
الثقيلة (O-Rings with Stress)‏ والدخلة Xo‏ عبارة عن جزء لا يتجزأ لكل وحدة من 
وحدات العالجة. وهي تأخذ القيمة واحد دام کل مدخّل من اللدخلات × يرتبط 
بالوحدة j‏ مع وزن الرابط Whi‏ ويسمى وزن الرابط wo‏ بالتحيز (bias)‏ أو الحد 
(threshold)‏ وذلك لسبب سيتم توضيحه لاحقاً. تقوم الوحدة j‏ بمعالجة المدخلات عن 
طريق إيجاد صافي المجموع Nol‏ وهو المجموع الموزون للمدخلات» وذلك على النحو التالي: 


2 
et; = 2 Wi Xi (1-0) 


i=0 


الشكل )3-0( 
وحدة معالجة بالشبكة العصبية الصناعية (ANN)‏ 


xg=l 


WY‏ استکشاف البیانات: نظريات وخوار زميات ٠‏ وأمثلة 


خوارزمیات لامتكشاف ف أنماط ال التصنیف ب Sala‏ 


يمكن تمثيل المعادلة ۱-۵ على النحو التالي: 
net; = Wx. )۲-۵(‏ 


ثم تقوم الوحدة, أو بتطبیق Do‏ تحول Sf‏ إلى Glo‏ ا مجموع وتوجد الناتج أو cde york)‏ 0» 
على النحو التالي: 


0 = f(net,). (¥-0) 


فيما ياي يتم استعراض خمس دوال من دوال التحول الشائعةء ويتم توضيحها في الشكل 
۲-۵: 


‘(Sign function) الاشارة‎ ds -۱ 


1 ifnet>0 


0 = sgn(net) = 14 paste <0 (€-0) 


(Hard limit Function) دالة الحد الثابت‎ -Y 


1 ifnet < 0 
0 ifnet <0 


o = hardlim(net) = { (0-0) 


استکشاف البیانات؛ نظرب يات و وخوا ۳ زميات وأمثلة r‏ 


الجز 3 الثاني 


الشكل (۲-۵) 
أمثلة على دوال التحول 


I P سم په‎ 


J (nat) io 


1 
j 

eg: 3‏ وب تا 

6343924 1 2 3 4 5 6 
۱ 


net 


تحت 6 5 4 3 2 1 0 41 2 4 4 و 6 


The hard limit - الحد الثابت‎ dls The Sign function - دالة الإشارة‎ 
function 


net 
هه‎ -5 -4 -3 -2 -1 0 1 2 3 4 5 6 


) 5 شكل حرف‎ de) الدالة السينية‎ The linear function - الخطية‎ Ju 
The sigmoid function 


The hyperbolic tangent function - دالة الظل انقطعي‎ 
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خوار زمیات Y‏ لاستكشاف bul‏ التصتيف والتنيق 


(Linear Function) الدالة الخطیة:‎ -Y 


0 = lin(net) = net (1-0) 


‘(Sigmoid function) الدالة السينية؛‎ -E 
1 


= sig(net) = a )۷-۵( 


‘(Hyperbolic tangent function) دالة الظل القطعي:‎ -O 


net net 
=g 


_ Zo L A-0 
o = tanh(net) سسوم جع‎ (A-0) 


من خلال المعطيات التالية الخاصة متجه المدخلات ومتجهة وزن الارتباط (w')‏ 


1 
J w = [-1.2 3 2], 
—6 


x= 


يتم احتساب ناتج الوحدة لكل من دوال التحول الخمسة المذكورة آنفاً على النحو التالي: 


l 1 
net = w'x = |-1.2 3 1 5 | = 8 


= sgn(net) = 1 
o = hardlim({net) = 1 


استكشاف البيانات؛ نظريات وخوارزميات وأمثلة 1o‏ 


o = lin(net) = 8 
0 = sig(net) = 0.8581 
0 = tanh(net) = 0.9468. 


تكفي وحدة معالجة واحدة لتنفيذ الدالة AND‏ النطقية. حيث يعطي الجدول ۱-۵ 
المدخلات وا مخرجات للدالة AND‏ وأربعة سجلات للبيانات الخاصة بهذه الدالة. الدالة 


AND تحتوي على قيم المخرجات 1- و 1. الشكل ۳-۵ يوضح تطبيق الدالة‎ AND 
باستخدام وحدة معالجة واحدة.‎ 


(3-0) الجدول‎ 
AND الدالة‎ 
Output - Glo ch Inputs - المدخلات‎ 
0 x, x, 
-1 -1 -1 
-l 1 -1 
-1 -1 1 
1 1 1 


۱۳ استكشاف البيانات: نظريات وخوار زميات وأمثلة 


خوارزم زه زميات الاستكشاف otal‏ التصنيف ٠‏ والتنيق 


الشکل (۲-۵) 
تطبیق الدالة AND‏ باستخدام وحدة معالجة واحدة 


1 < مد 


من بين دوال التحول الخمس في الشکل ۰۲-۵ هكن لدالة الإشارة ودالة الظل القطعي 
أن ينتج logis‏ مجموعة من قیم المخرجات التي تتراوح بين 1- إلى 1. يتم استخدام Alls‏ 
الٍشارة كدالة تحول لوحدة العالجة لتطبیق دالة AND‏ تتطلب آول ثلائة سجلات بیانات 
قيمة ا مخرجات 1-. ينبغي أن يكون الجموع الموزون لدخلات سجلات البیانات الثلائة 
الأول» wı + W2‏ + ونا wo‏ في النطاق e]‏ 2-[ ويتطلب سجل البيانات الأخير 
قيمة المخرجات التي تبلغ 1ء وينبغي أن يكون المجموع اللوزون للمدخلات في التطاق 
[0,1). ويجب أن يكون وزن الارتباط ۰۱۶/۵ ذا قيمة سالبة لجعل net‏ لأول ثلاثة سجلات 
من سجلات البيانات أقل من الصفر وأيضاً لجعل net‏ لآخر سجلات بيانات أكبر من الصفر. 
ومن ثمء فإن وزن الارتباط wio‏ ۰ يكون dite‏ الحد (الحاجز) أمام المجموع الموزون 
للمدخلات لجعل قيمة Sİ net‏ من أو أقل من الصفر. وهذا هو السيب 3 أن وزن الارتباط 
ل 0-1 يدعى بالحد (الحاجز) أو التحیز. في الشكل ۲-۵ تم وضع قيمة W10‏ عند 0.3 
يمكن أن يتم تمثيل المعادلة ۱-۵ على النحو التالي لإظهار دور الحد (الحاجز) أو التحيز, 8: 


net =wx +b, (4-0) 


201 
x= : w = [Wj sen Wip]. 
Xp 
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ويتضح ۳05 حساب قيمة الخرجات en‏ مدخل من الدخلات 7 في الجدول ۵ - :١‏ 


2 
0 = sgn(net} = sgn (> wx = sgn[-0.3 x 1+ 0.5 x (-1) + 0.5 x (-1)] 
i=0 
= sgn(-0.3 - 1) = sgn(-1.3) = -1 
2 
0 = sgn(net) = on (Dt ۱ = sgn[—0.3 x 1+ 0.5 x )-1( + 0.5 x (1)] 
=0 
= sgn(-0.3 + 0) = sgn(—0.3) = - 
2 


0 = sgn{net) = sgn 2 wı a) = sgn[-0.3 x 1 + 0.5 x (1) + 0.5 x )-1([ 
20 


sgn(-0.3 + 0) = sgn(—0.3) = -1‏ = 
2 
ma ۱ = sgn[-0.3 x 1 + 0.5 x (1) + 0.5 x )1([‏ )وه = sgn(net)‏ = 0 
120 
sgn(-0.3 + 1) = sgn(0.7) =1‏ = 
يعطي الجدول ۲-۵ المدخلات والمخرجات الخاصة بالدالة OR‏ المنطقية. ويبين الشکل 
٤-٥‏ تطبیق الدالة OR‏ باستخدام وحدة معالجة واحدة. 
الجدول (۲-۵) 
الدالة OR‏ 
المدخلات - Inputs‏ الخرجات - Output‏ 


0 x, ¥1 
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خوار زميات لاستكشاف bul‏ التصنيف ٠‏ والتنيق 


الشكل (t-0)‏ 
تطبيق الدالة OR‏ باستخدام وحدة معالجة واحدة 


يتطلب سجل البيانات الأول فقط قيمة المخرجات e-l‏ وتتطلب سجلات البيانات BW‏ 
الأخرى أن تكون قيمة المخرجات 1. يعطي سجل البيانات الأول فقط المجموع الموزون 1- 
من المدخلات. وتعطي سجلات البيانات BW!‏ الأخرى المجموع الموزون للمدخلات في 
النطاق ]1 ,0.5-]. ومن ثم» فإن أي قيمة للحد (الحاجز) w70‏ في النطاق )1 ,0.5( ستجعل 
قيمة net‏ لسجل البيانات الأول أقل من الصفرء وجعل قيمة net‏ لسجلات البيانات الثلاثة 
الأخيرة أكبر من الصفر. 


۲-۵ معماریات الشبكات العصبية الصناعية (Architectures of ANNs)‏ 


يمكن استخدام وحدات معالجة الشبكات العصبية الصناعية (ANNS)‏ لبناء أنواع 
مختلفة من معماريات الشبكات العصبية الصناعية (ANNS)‏ نستعرض تصميمين أو 
معماريتين للشبكات العصبية الصناعية (ANNS)‏ الشبكات العصبية الصناعية ذات 
التغذية الأمامية (Feed forward ANNS)‏ والشبكات العصبية الصناعية الدورية 
(Recurrent ANNs)‏ يتم استخدام الشبكات العصبية الصناعية ذات التغذية الأمامية 
على نطاق واسع. ويبين الشكل 0-0 الشبكات العصبية الصناعية GIS‏ التغذية الأمامية 
أحادية الطبقة وكاملة call‏ والتي يرتبط فيها مدخل من المدخلات بكل وحدة من 
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الجزء الثاني 


وحدات العالجة. ويبين الشكل 1-0 الشيكات العصبية الصناعية ذات التغذية الأمامية ثنائية 
الطبقات والکاملة الترابط. 
الشکل )0-0( 
معمارية الشبکات العصبية الصناعية ذات التغذية الأمامية الأحادية الطبقة 


x} 
0; 


Xə 02 


يلاحظ of‏ المدخلة Xo‏ لكل وحدة من وحدات المعالجة لا oes‏ بشكل صريح في 
معماريات الشبكات العصبية الصناعية ANN‏ في الأشكال 0-0 1-09 تحتوي الشبكات 
العصبية الصناعية ذات التغذية الأمامية ANN‏ ثنائية الطبقات في الشكل 1-0 على طبقة 
مخرجات لوحدات المعالجة لإنتاج المخرجات» وطبقة مخفية لوحدات المعالجة التي تشكل 
مخرجاتها مدخلات لوحدات المعالجة في طبقة المخرجات. يتم ربط كل مدخل من الدخلات 
بكل وحدة من وحدات المعالجة في الطبقة المخفية. ويتم ربط كل وحدة من وحدات 
المعالجة قي الطبقة المخفية بكل وحدة من وحدات امعالجة في طبقة المخرجات. في 
الشبكات العصبية الصناعية ذات التغذية الأمامية ANN‏ لا يوجد روابط عكسية بين 
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خوارزمیات ی أنماط 1 halg uoe‏ 


وحدات المعالجة؛ بمعنى آخر لا يتم استخدام مخرجات وحدة معالجة معينة 7 جزءاً من 
المدخلات لنفس وحدة ابلعالجة بشکل مباشر أو غير مباشر. ليس بالضرورة أن تکون الشبکات 
العصبية الصناعية ANN‏ مترابطة ترابطاً كاملاً كما هو الحال في الأشكال 0-0 و1-۵. قد تستخدم 
وحدات ابلعالجة نفس دالة التحول, أو دوال تحول مختلفة. 


الشکل )1-0( 
معمارية الشبکات العصبية الصناعية ذات التغذية الأمامية الثنائية الطبقات 


استکشاف البیانات: GL BS‏ وخوارزميات وأمثلة 


1۳۹۱ 


الجزه الثاني 


الشكل (ه-/) 
شبکات عصبية صناعية ذات تغذية أمامية ثنائية الطبقات تطبق دالة XOR‏ 


الشبكات العصبية الصناعية ANNS‏ في الأشكال ۳-۵ 05-€ على التواليء هي أمثلة على 
الشبكات العصبية الصناعية ذات التغذية الأمامية الأحادية الطبقة. ويبين الشكل ۷-۵ 
الشبكات العصبية الصناعية ذات التغذية الأمامية ثنائية الطبقة كاملة الترابط مكونة من 
طبقة مخفية واحدة تحتوي وحدتي معالجة. ' وطبقة مخرجات تحتوي وحدة معالجة واحدة 
لتنفيذ الدالة المنطقية والحصرية OR‏ ويرمز لها بالرمز (XOR)‏ يوضح الجدول ۳-۵ 
المدخلات والمخرجات الخاصة بالدالة XOR‏ 

إن عدد المدخلات» وعدد المخرجات في الشبكات العصبية الصناعية ANN‏ يعتمد على الدالة 
الستخدمة من قبل الشبكات العصبية الصناعية ANN‏ على سبيل EM‏ فإن الدالة XOR‏ 
لها مدخلان اثنان ومخرج واحد ومن ثم يمكن تمثيلها بشبكة عصبية صناعية ANN‏ تحتو 
مدخلین gäl‏ ومخرج واحد. على التوالي. غالباً ما يتم تحديد عدد وحدات اللمعالجة في ا 
ا مخفيةء والتي تسمى بالوحدات الخفية. تجریبیاً بحیث تأخذ في الاعتبار درجة تعقيد الدالة 
التي تقوم الشبكات العصبية الصناعية ANN‏ ااا بشکل عام» كلما كانت الدالة 
أكثر تعقيداً. كانت هناك حاجة إلى المزيد من الوحدات المخفية. شبكات ال ANN‏ ذات 


wr‏ استكشاف البيانات: نظرد يات وخوار زميات وأمثلة 


خوارزمیات لاستكشاف أنماط التصنيف والتنيؤ 


772752ج27777727172777227775ت11413121أ1ذذذذأ VRS SMI‏ هه نا 


التغذية الأمامية ثنائية الطبقات مع دالة سينية أو دالة الظل القطعي يكون لها من القدرة 


(Witten et al., 2011) معطاة‎ dle على تطبيق‎ 


الجدول )0-¥( 
الدالة XOR‏ 


ا مدخلات - Inputs‏ المخرجات - Output‏ 


22 x 
-1 -1 
1 -1 
-1 1 
1 1 


ل ۰ 
ا لا اك کے 


الشكل (A-0)‏ 
معماريات الشیکات العصبية الصناعية الدورية 


a 
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ul 3 الجز‎ 


ویبین 8 A-O‏ معمارية الشبكات العصبية الصناعية الدورية مع روابط عکسية 
تستخدم الغرجات على هيئة مدخلات إلى الوحدة المخفية الأول (ظاهرة) ووحدات مخفية 
آخری (غير ظاهرة). تسمح الروابط العكسية للشبکات العصبية الصناعية ANN‏ بالتقاط 
السلوك الزمني» بحیث أن امخرجات في الوقت 1 + / تعتمد على ابلخرجات أو على Blo‏ 
شبکات ال ANN‏ في الوقت ۶. ومن ثم. فان شبکات ال ANN‏ الدورية مثل تلك الموضحة 
3 الشکل ۸-۵ تحتوي روابط عكسية لالتقاط السلوکیات الزمنية. 


۳۵ طرق تحديد أوزان الروابط في الشبكة العصبية الصناعية ذات التغذية 
الأمامية أحادية الطبقة 

(Methods of Determining Connection Weights for a Perceptron): 

لاستخدام شبكة ال ANN‏ لتطبيق Io‏ ماء علينا Vol‏ تحديد معمارية شبكة ال ANN‏ 
ما في ذلك عدد المدخلات. وعدد الخرجات» وعدد الطبقات. وعدد وحدات العالجة في كل 
iib‏ ودالة التحول لكل وحدة من وحدات المعالجة. ثم تحتاج لتحديد أوزان الروابط. في 
هذا الجزء. نقوم بوصف طريقة بيانيةء وطريقة تعلْمية لتحديد أوزان الروابط لشبكة ال 
Perceptron‏ وهي شبكة عصبية صناعية ذات تغذية أمامية أحادية الطبقة مع دالة 
الإشارة (sign function)‏ أو دالة تحول الحد الثابت (hard limit transfer‏ 
function)‏ على الرغم من أنه يتم شرح المفاهيم والأساليب في هذا الجزء باستخدام دالة 
تحول الإشارة لكل وحدة من وحدات المعالجة في شبكة ال perception‏ « فان هذه 
الفاهیم والأساليب قابلة للتطبيق laf‏ على شبكة ال perceptron‏ مع دالة تحول الحد 
الثابت لكل وحدة من وحدات امعالجة. 

في الجزء ۶-۵ نستعرض طريقة التعلم بالتوالد الخلفي لتحديد أوزان الروابط للشبكات 
العصبية الصناعية ذات التغذية الأمامية المتعددة الطبقات. 
۱-۳-۵ الشبكة العصبية الصناعية ذات التغذية الأمامية أحادية الطبقة (Perceptron)‏ 

يتم استخدام الرموز التالية لتمثيل الشبكة العصبية الصناعية ذات التغذية الأمامية 
الأحادية الطبقة والرتبطة ارتباطاً كاملاً بعدد مدخلات ص ووحدات معالجة في طبقة 
المخرجات بغرض إنتاج مخرجات عددها qg‏ ودالة تحول الإشارة لكل وحدة من وحدات 
امعالجة. كما هو مبين في الشكل 0-0: 


Wwe‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات ل لاستکشاف bial‏ 1 التصنيف والتنبؤ 


Wap wi Wht by‏ الما 
Wapi [Wa Wip bq‏ 


0 = sgn(w’x + (۰ (\+-0) 


۲-۳-۵ خصائص وحدة المعالجة (Properties of a Processing Unit)‏ 
بالنسبة لوحدة معالجة معينة OB j‏ المخرجات o=sgn(net)=sgn(wj x+bi)‏ 
تفصل متجهات امطدخلات» 65ت إلى منطقتين: منطقة يكون بها 564<0, و O=]‏ وال منطقة 

الأخرى يكون بها 26/>0 و [-=ه. 

إن المعادلة, 0 = رط + net = wx‏ هي حد القرار (decision boundary)‏ في 
فضاء المدخلات التي تفصل بين المنطقتين. على سبيل JEM‏ قيم × معطاة في فضاء GUS‏ 
الأبعاد. والوزن والتحيز التالية: 


- زا‎ < ]-1 1] bj =-1, 


حد القرار هو 
0) = 47 + ۷ 
0 < 1 - ویر + ویر 
X, = 2+1 ۰‏ 
ویوضح الشکل 1-0 حد القرار, rads‏ فضاء املدخلات إلى منطقتین بواسطة حد القرار. 


الیل (slope)‏ ونقطة التقاطع (intercept)‏ للخط الذي هثل حد القرار في الشکل ٩-۵‏ 
هما: 


استکشاف البیانات: نظریات وخوارزمیات وأمخلة ۱۳۵ 


الجزء الثاني 


۱ j_1 
intercept = — = ~ = 1. 
Wj 2 1 


الشكل )4-0( 
مثال على حد القرار وفصل بين clad‏ المدخلات إلى منطقتين من خلال وحدة المعالجة 


كما هو موضح في الشكل ٩-۵‏ تتميز وحدة اللعالجة بالخصائص التالية: 
* يكون متجه الوزن متعامداً على حد (حاجز) القرار. 
* يشير متجه الوزن إلى الجانب الموجب (net > O)‏ لحد القرار. 
© اللوقع الخاص بحد القرار يمكن إزاحته من خلال تغيير ط. إذا كانت 6-0 فإن حد 
القرار يمر من خلال نقطة الأصلء على سبيل JL)‏ نقطة الأصل هي )0 0) في الفضاء 
ثنائي الأبعاد. ١‏ 


۱۳ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوارزهمیات ا ار ا ل ا والتنبؤ 


* لأن حد القرار عبارة عن معادلة خطية: يمكن لوحدة المعالجة أن تقوم بتطبيق دالة 
قابلة للفصل خطياً فقط. 
تُستخدم هذه الخصائص لوحدة المعالجة في الطريقة البيانية لتحديد أوزان الروابط في 
الجزء ۳-۳-۵ وطريقة التعلم لتحديد أوزان الروابط في الجزء 0-¥-£ 


۳-۳-۵ الأسلوب البياني لتحديد أوزان الروابط والتحيزات 
(Graphical Method of Determining Connection Weights and‏ 
Biases):‏ 
يتم الأخذ بالخطوات التالية كأسلوب Gly‏ لتحديد أوزان الروابط للشبكة العصبية 
الصناعية ذات التغذية الأمامية الأحادية الطبقة (perception)‏ بعدد مدخلات P‏ ومخرج 
واحد» ووحدة معالجة واحدة لإنتاج اطخرجات. ودالة تحول الإشارة لوحدة المعالجة: 


۱- ارسم نقاط البيانات لسجلات البيانات في مجموعة البيانات التدريبية (الاستكشافية) 


لهذه لدالة. 
-V‏ ارسم حد القرار لفصل blä‏ البيانات ذات القيم o=]‏ عن نقاط البیانات ذات 
القيم o=-l‏ 


-Y‏ ارسم متجه الوزن واجعله متعامداً على حد القرارء ويشير إلى الجانب الموجب من 
حد القرار. وتحدد إحداثيات متجه الوزن أوزان الروابط. 
-É‏ استخدم إحدى الطريقتين التاليتين لتحديد التحيز b‏ 
1 استخدم نقطة تقاطع مستقيم حد القرار مع أوزان الروابط لتحديد 
التحيز(ط). 
ب- اختر Tous‏ قليلاً من نقاط البيانات على كلا الجانبين الموجب والسالب لستقیم 
حد القرار بحيث تكون النقاط هي الأقرب إلى مستقيم حد القرار واستخدم 
نقاط البيانات تلك وأوزان الروابط لتحديد التحيز (b)‏ 


هذه الخطوات موضحة ف المثال ۱-۵. 


استکشاف البیانات: OL‏ وخوارزمیات وأمثلة ۱۳۷ 


الجزه الثاني 


ا مثال )3-0( 

استخدم الطريقة البيانية لتحديد أوزان الروابط للشبكة العصبية الصناعية ذات التغذية 
الأمامية أحادية الطبقة (perceptron)‏ المحتوية على وحدة محالجة واحدة للدالة AND‏ 
3 الجدول ۰۱-۵ 

في الخطوة 1ء قمنا برسم الدوائر الأربعة في الشكل ۱۰-۵ لتمثل نقاط البيانات الأربعة 
للدالة AND‏ وقد تم إبراز قيمة المخرجات لكل نقطة من نقاط البيانات داخل دائرة 
لنقطة. في الخطوة V‏ نستخدم معادلة حد القراره 

7 + ر - = x2‏ لفصل نقاط البيانات الثلاثة التي بها 1-<0 عن نقطة البيانات التي 
بها 1 = 0. نقطة تقاطع مستقيم حد القرار هي 1 بحيث تكون 1 = 2× عند وضع xX‏ عند 
صفر. a‏ الخطوة 3« رسمنا متجه الوزن )0.5 ,0.5( = ws‏ وهو متعامد على مستقيم حد 
القرار ويشير إلى الجانب الموجب منه. ومن ثمء يكون لدينا 5 = wis‏ 05 = 1۷2. في 
الخطوة 4 نقوم باستخدام املعادلة التالية لتحديد التحيز: 

W1,2%2 +b=0‏ + 1% لين 
W1,2X2 = —W11%1 — b‏ 


الشكل (۱۰-۵) 
توضيح الطريقة البيانية لتحديد أوزان الروابط 


خوارزميات لاستكشاف أنماط التصنيف والتنبؤ 


Sf SSAA CLS LEAST TEA SE EEN HL PVF ESE ae AS LIK ماه‎ REDD STATS EL میتی كذ‎ ET A P مرحم له‎ PT INBRED TS PE ELEN eT ی‎ 


b 
intercept = — — 
Wi2 


وإذا ما حركنا مستقيم حد القرار بحيث تكون نقطة التقاطع عند 0.6 فإننا نحصل 
على b=-0.3‏ وبالضبط على نفس الشبكة العصبية الصناعية ANN‏ للدالة AND‏ كما هو 
مبين في الشكل ۳-۵. باستخدام طريقة أخرى في الخطوة £ نختار نقطة البيانات dJ)‏ /) على 
الجانب الموجب مستقيم حد القرار, ونقطة البيانات d)‏ 7-) على الجانب السالب لحد 
القرار, وأوزان الروابط 1,2-0.5/ ,0.5 ر ,ربلا لتحديد التحيز b‏ على النحو التالي: 


net = در رس‎ + W12X2 +b 
net = 0.5 <1 + 0.5 ذا‎ 1 4+ 6 >0 
b>-1 
3 
net = W11X1 + Wı 2X2 + b 
net =0.5X(-1)+05x1+5b<0 
b= 0. 
ومن ثم يكون لدينا:‎ 
-1 > <0. 


بجعل b=-0.3‏ نحصل على نفس الشبكة العصبية الصناعية ANN‏ للدالة AND‏ كما هو 
مبين في الشكل ۳-۵. إن شبكة ال ANN‏ بالأوزان» والتحيزء وحد القرار كما هو الحال في 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۱۳۹ 


الجزه الثاني 


الشكل ٠١-0‏ ينتج عنها المخرجات الصحيحة للمدخلات 3 كل سجل من سجلات البيانات 
الواردة في الجدول ۱-۵. للشبكة ANN‏ أيضاً القدرة على تعميم تصنيف أي متجه من 
متجهات المدخلات على الجانب السالب لحد القرار إلى 1-<0 وأي متجه من متجهات 
المدخلات على الجانب الموجب من حد القرار إلى OF]‏ بالنسبة للشبكة العصبية الصناعية 
ذات التغذية الأمامية أحادية الطبقة المحتوية على وحدات مخرجات متعددة يتم تطبيق 
الطريقة البيانية لتحديد أوزان الروابط والتحيز لكل وحدة من وحدات المدخلات. 


٤-٣-٥۵‏ طريقة elas‏ لتحديد أوزان الروابط والتحيزات 
(Learning Method of Determining Connection Weights and Biases):‏ 
نستخدم السجلين التاليين من سجلات البيانات الأربعة للدالة AND‏ في مجموعة 
البيانات التدريبية لتوضيح طريقة تعلم تحديد أوزان الروابط للشبكة العصبية الصناعية 
ذات التغذية الأمامية أحادية الطبقة المحتوية على وحدة معالجة واحدة بدون تحيز: 


1. x:=-1 x2=-1 t;=-1 
2. x=1 x2=1 1=], 


حيث تشير :/ إلى المخرجات المستهدفة لوحدة المعالجة 1 التي تحتاج إلى أن يتم إنتاجها 
لكل سجل من سجلات البيانات. يتم رسم سجلي بيانات 3 الشكل ۱۱-۵. 

نقوم باعطاء قیم أولية لأوزان الروابط باستخدام قیم عشواثية. 1- -(8) Wit‏ و 
Cue wi (-8‏ تشير ۸ إلى عدد التکرار عندما يتم إسناد الأوزان أو تحدیثها. 
البداية. تکون K=O‏ نقدم | مدخلات أول سجل بیانات إلى الشبكة العصبية الصناعية ذا 
التغذية الأمامية الأحادية الطبقة بوحدة معالجة واحدة: 


3 
D 


net = wı )0( x, + w1,2(0) يع‎ = )-1( x (—1) + 0.8 x (-1) = —1.8. 


وحيث إن net<0‏ « فیکون /- = 07. ومن ثم فان شبكة ال percepton‏ مع متجه الوزن 
(1,0.8-) تنتج الخرجات المستهدفة لدخلات آول سجل بيانات ./- = ty‏ ليست هناك 


Ie to} eat‏ ل سح سس 
Vee‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات اس bul‏ التصنيف i‏ والعنيق 


حاجة لتغییر 3 ان الروابط. بعد ذلك» نقوم بتقدیم مدخلات سجل البیانات الثاني ۳ شبكة 
ال perceptron‏ 


net = wı )0( x, + w,2(0) x2 = )-1( x 1 + 0.8 x 1 = —0.2. 


وحيث إن 76>0, فیکون 1- </0 والذي یختلف عن الخرجات الستهدفة لسجل 


البیانات هذا LI‏ ومن ثم يجب أن يتم تغییر آوزان الروابط من أجل انتاج الخرجات 
الستهدفة. 


الشکل )51-0( 
توضیح طريقة تعلم تغيير آوزان الروابط 


وئستخدم المعادلات التالية لتغییر أوزان الروابط لوحدة املعالجة J‏ 


Aw; = TE 5 0j)x )۱۱-۵( 


استكشاف البیانات: نظريات وخوارزميات وأمثلة كل 


Wj 7 + = w(K) + ۳9 )۱۲-۵( 


في العادلة ۱۱-۵ إذا كانت قيمة )0 - ) dào‏ معنی, 0 = ٤‏ » فانه لا یکون هناك أي 
تغيير في الأوزان. إذا کانت» [- O=‏ 


1 1 
Aw, = > (tj - oj)x = 5)1 - )-1(( =x. 


بإضافة × إلى Wy (K)‏ مما يعني» حل wi(K)+X‏ في Dolab‏ ۱۲-۵ نحرك متجه الوزن بالقرب 
من X‏ ونجعل نقطة متجه الوزن باتجاه × بشكل أكبر WY‏ نريد أن يشير متجه الوزن إلى 
الجانب الموجب من حد القرارء وأن تقع على × على الجانب الموجب من حد القرار. إذا كان 
t=-l‏ » 3 [-درم 


1 1 
Aw; = 5 (ty = 0;)x = 27-1 - 1)x = —x.‏ 
بطرح × من Wy (K)‏ مما يعني» حل wy (k) — x‏ في المعادلة ۱۲-۵ نحرك متجه الوزن 
بعیداً عن x‏ ونجعل نقطة متجه الوزن أقرب إلى الاتجاه المعاكس ل x OY x‏ تقح على 


الجانب السالب من حد القرار مع 4-7 e‏ ونريد متجه الوزن أن يشير في النهاية إلى الجانب 


ألموجب من حد القرار. 
باستخدام المعادلات ۸۱۱-۵ و۱۲-۵» نقوم بتحديث أوزان الروابط استناداً إلى المدخلات 
وا مخرجات المستهدفة والفعلية لسجل البيانات الثاني وذلك على النحو التالي: 


Aw, - 2), - 00 -2)1- )-9( | ۳ G 1 


w,(1) = w, (0) + Aw, = lcal + ۳ = Lal 


et 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ ۲ 


خوارزمیات | Aisy‏ قاط ال التصنيف والتنبؤ 


۱۱-۵ كما هو واضح من الشكل‎ .13-0 me 3 alja متجه الوزن الجدید.‎ ae 
تظهر آقرب إلى سجل البيانات الثاني × من )7/0 وتشير بشكل أكبر إلى اتجاه‎ wi) فان‎ 
ومن ثم تقع على الجانب الموجب من حد القرار.‎ of = 1 يكون لديها‎ x OY عه‎ 

مع الأوزان الجديدة. نقوم باستعراض مدخلات سجلات البيانات إلى شبكة ال 
2 مرة أخرى في التكرار الثاني لتقييم وتحديث الأوزان إذا لزم الأمر. ونستعرض 
مدخلات أول سجل بيانات: 


net = رس‎ 1(1) xı + w12(1) x2 = Ox )-1( + 1.8 x (—1) = -18. 


وحيث إن 0 > net‏ يكون لدينا 1 - = 0. ومن ثمء فان شبكة ال amig perceptron‏ 
الوزن )1.8 ,0) تنتج المخرجات المستهدفة لمدخلات أول سجل بیانات» [- = ti‏ ومع 
(ty - 01) = 0‏ ليست هناك حاجة لتغيير أوزان الروابط. بعد ذلك نقوم باستعراض 
مدخلات سجل البيانات الثاني إلى شبكة ال perceptron‏ 


net = رس‎ )1( xı + w12(1) x2 = 0 x 1 + 1.8 x 1 = 1.8. 


وحيث إن 0 > net‏ لدينا 1 = 07 ومن ثمء فان الشيكة العصبية شبكة ال oles pie‏ 
بمتجه الوزن )1.8 ,0) تنتج اللخرجات المستهدفة لمدخلات سجل البيانات الثاني» 1 = 

مع 0 = )0 — SS OA ft‏ 
perceptron‏ متجه الوزن )1.8 ,0) Cle eb)‏ المستهدفة لجميع سجلات البيانات في 
مجموعة البيانات التدريبية حيث يتم الانتهاء من تعلم أوزان الروابط لسجلات البيانات في 
مجموعة البيانات التدريبية بعد التكرار الأول لتغییر آوزان الروابط مع متجه الوزن النهاني 
)1.8 ,0). حد القرار هو المستقيم, 0 = 


وبالنظر إلى المعادلات العامة لطريقة التعلم الخاص بتحديد أوزان الروابط: 
Aw; = a(t; - 0;)x = ae;x (1-0)‏ 


el‏ حیحص مصسسسسسسسسسسس متا 
استکشاف البيانات: نظريات وخوارزميات وأمثلة 1E‏ 


(۵-ع۱) 5 + 0 را = D‏ + )را 


1 
3 
Aw, ; = a(t; — 0,;)x; = ae;x; (10-0) 
w; i(k + 1) = wj i(k) + Awi (1-0) 

حیث إن 


رم - زو = ره Ute‏ خطأ للخرجات 
a‏ هو معدل التعلم الذي يأخذ قيمة تتراوح في النطاق )0,1( 


في المعادلة ۱۱-۵ يتم وضع قيمة » عند 1/2 حيث إن التحيز (b)‏ لوحدة المعالجة زهو 
وزن الرابط من المدخلات 7 = xo‏ إلى وحدة المعالجة: فإنه ممكن التعويض ف المعادلتين ۵- 
۵ 11-09 لتغییر التحيز الخاص بوحدة المعالجة j‏ على النحو التالي: 
Ab; = a(t; - oj) x xo = a(t; - oj) x 1 = ae; )۱۷-۵(‏ 
b;(k) + Ab. (A-0)‏ = )1 + )ره 


۵-۳-۵ عيوب الشبكة العصبية الصناعية ذات التغذية الأمامية الأحادية الطبقة 
(Limitation of a Perceptron):‏ 
LS‏ هو موضح في الأجزاء ۲-۳-۵ و۳-۲-۵ فإن كل وحدة من وحدات امعالجة تطبق 
حد القرار الخطيء وهو ما يعني دالة قابلة للفصل خطياً. حتى مع وجود وحدات معالجة 
متعددة في طبقة واحدة تقتصر شبكة ال perceptron‏ على تطبيق دالة قابلة للفصل 
Las‏ على سبيل JEL‏ الدالة XOR‏ في الجدول ۳-۵ ليست دالة قابلة للفصل خطياً. هناك 
مخرجة واحدة فقط للدالة XOR‏ باستخدام وحدة معالجة واحدة لتمثيل الخرجات» 
يكون لدينا حد قرار واحد» وهو خط مستقيم Jès‏ دالة Abs‏ 


۱۶ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوارزميات لاستكشاف blal‏ التصنيف والتنيؤ 


على الرغم من AUS‏ لا يوجد خط مستقيم في فضاء المدخلات لفصل نقطتي بيانات بها 
7 = م عن نقطتي البيانات الأخريين التي بها مع 7- = 0. وهناك dole‏ لحد قرار غير 
خطيء مثل ذلك الموضح في الشكل ۱۲-۵ لفصل نقطتي البيانات التي بها 7 = 0 عن نقطتي 
البیانات الأخريين التي بها 7 - = 0. لاستخدام Jarg‏ معالجة تطبق دوال قابلة للفصل 
Lbs‏ لبناء شبكة ANN‏ تطبيق الدالة XOR‏ فإننا نحتاج وحدات معالجة في تطبيق واحدة 
(الطبقة المخفية) لتطبيق حدي قرار, ووحدة معالجة واحدة في طبقة أخرى (طبقة 
المخرجات) للجمع بين مخرجات الوحدتين المخفيتين كما هو مبين في الجدول 0-£ والشكل 
۷-۵. يعرف الجدول 0-0 دالة NOT‏ المنطقية المستخدمة في الجدول .٤-٥‏ ومن ثم نحتاج 
إلى شبكة ANN‏ ثنائية الطبقات تطبق الدالة XOR‏ وهي دالة قابلة للفصل بشكل غير 
خطي. 

هكن استخدام طريقة التعلم الموصوفة من خلال المعادلات من ۱۳-۵ إلى ۱۸-۵ لعرفة 
أوزان الروابط لكل وحدة من وحدات المخرجات باستخدام مجموعة من البيانات التدريبيةء 
OY‏ القيمة الستهدفة 1 لكل وحدة من وحدات المخرجات تكون معطاة في البيانات 
التدريبية. وبالنسبة لكل وحدة مخفية. المعادلات من ۱۲-۵ إلى ۵ هي معادلات غير 
قابلة للتطبيق WY‏ لا نعرف قيمة / للوحدة المخفية. ومن ثم فإننا نواجه صعوبة في معرفة 
أوزان الروابط والتحيز من البيانات التدريبية لشبكة ال ANN‏ المتعددة الطبقات. يتم 
التغلب على هذه الصعوبة لشبكات ال ANN‏ المتعددة الطبقات من خلال طريقة التعلم 
بالتوالد الخلفي كما سيتم توضيحه في الجزء التالي. 
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نقاط البيانات الأربع للدالة XOR‏ 


و 


نگ 


الجدول )0-€( 
Uo‏ خاصة بکل وحدة معالجة في شبكة ال ANN‏ الثنائية الطبقات لتطبیق الدالة XOR‏ 


oF AND ده‎ o=NOT(x! 01 ولد‎ or=xı ORx: ود‎ ۲ 


-1 1 -l -l -l 
1 1 1 1 -1 
1 1 1 -l 1 
-1 -1 1 1 1 
(0-0) الجدول‎ 
NOT الدالة‎ 
0 x 
j -1 
-1 l 
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خوار زميات لا تيدف bial‏ | التصنيف والتنيؤ 


Pr 6-0‏ بقة ت التعلم بالتوالد الخلفي للشبكات العصبية الصناعية ذات التغذية 
الأمامية متعددة الطبقات 

(Back-Propagation Learning Method for a Multilayer 

Feedforward ANN): 

تهدف طريقة التعلم بالتوالد الخلفي (back propagation learning method)‏ 

للشبكات العصبية الصناعية ols ANN‏ التغذية الأمامية متعددة الطبقات Rumelhart)‏ 

(et al., 6‏ إلى البحث عن مجموعة من أوزان الروابط Le)‏ في ذلك التحيزات ) 77 التي 

تقلل من خطأ المخرجات. يتم تعريف خطأ ا مخرجات لسجل بيانات تدريبية d‏ على النحو 
التالى: 


1 2 
Ea(W) = =) (ta — Oja) (18-0) 
j 


حيث إن: 
tja‏ هي المخرجات الستهدفة لوحدة المخرجات j‏ لسجل بيانات تدريبية d‏ 
Oja‏ هي المخرجات الفعلية التي تنتجها وحدة المخرجات رفي شبكة ال ANN‏ 
المحتوية على الأوزان 17 لسجل البيانات التدريبية d‏ 
يتم تعريف خطأ ا مخرجات لمجموعة سجلات بيانات تدريبية على النحو التالي: 


1 2 
E(W) = sy.» (a = oja) - )۲۰-۵( 
d j 


OY‏ كل ره تعتمد على W‏ فان E‏ هي دالة من . تبحث طريقة التعلم بالتوالد 
الخلفي في فضاء الأوزان الممكنةء وتقيم مجموعة معطاة من الأوزان على أساس قيم E‏ 
المرتبطة ly‏ وتسمى عملية البحث هذه بالبحث الهابط المتدرج ( gradient descent‏ 
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الجز » الثاني 


(search‏ الذي يغير الأوزان عن طريق me‏ في اتجاه تقلیل ۳7 املخرجات بعد اجتياز 
مدخلات سجل البيانات # من خلال شبكة ال ANN‏ بالأوزان W‏ على النحو التالي: 


ðE GE, ۶ 0) پر‎ WG 
Aw; = =a =E = ا ا‎ = «5; 202۷۸60 _ Jk 3 0۵,8 )۲۱-۵( 
Ow; ; net; Ow; ; Ow); 
حيث يتم تعريف (8 على أنها:‎ 
ðE wa 
د‎ ۲۲-۵ 
J 2 it 
0116 


حيث إن: 


» هو معدل التعلم بقيمة dole‏ تكون في النطاق )0,1( 
;6 هي المدخلات i‏ إلى وحدة المعالجة J‏ 


إذا كانت الوحدة زتستقبل مباشرة مدخلات الشبكة ANNI)‏ ؛ فان :8 هي Xi‏ وخلاف 
WS‏ فإن :5 هي من وحدة في الطبقة السابقة التي تغذي مخرجاتها كمدخلات إلى الوحدة 
آر لتغيير التحيز الخاص بوحدة المعالجة» يتم تعديل المعادلة ۲۱-۵ باستخدام / = :8 على 
النحو التالي: 
Ab; = ad; )۲۳-۵(‏ 


إذا كانت الوحدة j‏ هي وحدة مخرجات» 


1 2 
ری‎ 9900 _ _ (Za - مره‎ 8 (f(rety)) 
Ane, do, 206 do, dnet, 


= (tja - oya) fj (net). (Y€-0) 


ar a UA | ia n CE T D T RT et TCI TE 
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خوار زمیات لاستكشاف bui‏ التصليف Sail‏ 


e اول عان قيمة للحد‎ neta يتعلق‎ Loud على مشتة مشتق ار‎ fs ندل‎ dias 
خطیة. سينية» وتماسية. بالنسبة لدالة التحويل السينية:‎ JEL وقابلة للتفاضلء على سبيل‎ 


1 
a= f;(net,) = 1+ e net; , 


یکون لدینا ما يلي: 
e` j‏ 1 8 
fi (net) = net ae j = = )1 — oj). )۲۵-۵(‏ 


إذا كانت الوحدة ر هي وحدة مخفية تقوم بتغذية مخرجاتها کمدخلات لوحدات 
الخرجات» 


08 8 _ Ea ĝo; 5 = Eg netr 
ym 2060 Bo; 270 0 Tal. {net J> مس‎ Inet ðo; f ۳ ) 


حيث 721 هو المجموع Glall‏ لوحدة المخرجات 2 باستخدام المعادلة ۲۲-۵ نعيد كتابة 
Jj‏ على النحو التالي: 


8 = 0 ی‎ et) = (ds ون سداد‎ er) 


= (En ônWny)f (neg). 


(1-0) 


حيث إننا نحتاج dn‏ في المعادلة 1-0 والتي يتم حسابها لوحدة المخرجات 7 فإن تغيير 
الأوزان الخاصة بشبكة ال ANN‏ يجب أن تبدأ بتخيير أوزان وحدات المخرجات. والانتقال 
إلى تغيير الأوزان للوحدات المخفية في الطبقة السابقة بحيث إن :8 لوحدة المخرجات n‏ 
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oe . الجز‎ 


يمكن استخدامها في حساب i‏ للوحدة املخفية J‏ وبعبارة ۳ On‏ لوحدة n Cole bl‏ 
يتم توالدها خلفياً لحساب Jj‏ للوحدة المخفية of‏ والتي يطلق عليها التعلم بالتوالد الخلفي. 
التغييرات الخاصة بالأوزان والتحیزات» على النحو الذي تحدده المعادلات ۲۱-۵ ۲۳-۵9 يتم 
استخدامها لتحديث الأوزان والتحيزات للشبكة العصبية الصناعية ANN‏ على النحو التالي: 


Wj (k+1)= Wii (k) + Aw; i (¥V-0) 
)۲-۵( امثال‎ 


ليكن لدينا شبكة ANN‏ تستخدم دالة XOR‏ وسجل البيانات الأول في الجدول ۳-۵ 
بحيث تكون 1- = رعر.1- =1 /- =× . قم باستخدام طريقة التوالد الخلفي لتحديث 
الأوزان والتحيزات الخاصة بشبكة ANN‏ في شبكة ال ANN‏ يتم استخدام Ilo‏ التحويل 
السينية من قبل كل من الوحدتين اللخفیتین, والدالة الخطية من قبل وحدة المخرجات. تبدأ 
شبكة ال ANN‏ بالقيم العشوائية التالية للأوزان والتحيزات في (1,7-) كما هو مبين في 
الشكل :١ ١-0‏ 


Wii = 0.1 W241 = —0.1 Wi2 = 0.2 W22 = -2 bı = -—0,3 
b» = —0.4 W31 = 0.3 W32 = 0.4 b, = 0.5. 


pe ta a a T h a T E aah aa aa a aE Aa tw I A E E A 
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خوار زميات لاستكشاف bul‏ سرت ف والتتبق 


الشكل (۱۳-۵) 
مجموعة من الأوزان بقيم عشوائية في شبكة ال ANN‏ ذات التغذية الأمامية ثنائية الطبقات للدالة XOR‏ 


قم باستخدام معدل التعلم 2<0.3. بتمرير مدخلات سجل البیانات»1-  Xp‏ و 1- = 2× 
> من خلال شبكة ال ANN‏ نحصل على ما يلي: 


sig(0.1 x (-1} + 0,2 x -1( + )-0.3((‏ = زيط + sig(wy1%1 + Wy 2X2‏ > ون 


= sig(—0.6) = = 0.3543 


1 + e686) 
يه‎ = Sig(We1X, + W2,2%2 + bz) = sig((-0.1) x )-1( + )-0.2( x )-1( + (-0.4)) 


= sig(—0.2) = 0.4502 


Ite CoD 
o = sig(ws,101 + w3,202 + b4) = sig (0.3 x 0.3543 + 0.4 x 0.4502 + 0.5) 


= 0.6871 


4-<م + 


= sig(0.7864) = 7 
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ها أن الفرق بين 0=0.6871 و t=-1‏ کب sigs‏ إلى تغيير E‏ والتحيزات بشبكة 


ال ANN‏ تستخدم المعادلات ۲۱-۵ TY-09‏ لتحديد التغييرات في الأوزان والتحيزات الخاصة 


Aw3, = 0536, = 0.3 x ô; x رن‎ = 0.3 x 53 x 0.3543 
Aw; د‎ = 0636, = 0.3 × 83 x 02 = 0.3 x 83 2 0.4502 
Ab; = ads; = 0,3 x 63 


وتستخدم المعادلة ۲۶-۵ لایجاد 03 ثم تستخدم و لإيجاد Aw3,24w3,1‏ وول على النحو 
التالي : 


53 = (t - 0) fi (net) = (tja - Oja lin (nets) = )-1 — 0.681) x 1 = -1 
Aw3, = 0.3 x وق‎ X 0.3543 = 0.3 x (—1.6871) x 0.3543 = —0.1793 
Aw 3. = 0.3 x و8‎ x 0.4502 = 0.3 x (—1.6871) x 0.4502 = —0.2279 

x (—1.6871) = —0.5061‏ 0.3 = و8 Ab, = 0.3 x‏ 
تستخدم المعادلات 1-0 ۲۳-۵, ۲۵-۵, ۰۲۱-۵ لتحديد التغييرات في الأوزان والتحيزات لكل 
وحدة مخفية على النحو التالي: 


n=3 


6, = 0 ÖnWn,1 |, دس‎ = z 93 ÖnWn Df (net) 


n=3 
= 53W3,,0,(1 - 01) = (—1.6871) x 0.3 x 0.3543 x (1 - 0.3543) = —0.0471 


=3 


5= 5 Sata) (net) = 9 SnWn, 2( z(netz) = ws 202(1 — 02) 


n=3 
= (—1.6871) x 0.4 x 0.4502 x (1 — 0.4502) = —0.0510 
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خوار زميات لا ان bial‏ التصنیف gully‏ 


åw, ae = 0.3 x 6, X x, = 0.3 x < (0.0471) ۳3 1 0.0141 
Aw, 2 = 06x) = 0.3 x يق‎ X x2 = 0.3 x (—0.0471) x (—1) = 0.0141 
Aw2, = a62x, = 0.3 x 62 X x, = 0.3 x (—0.0510) x (—1) = 0.0153 
Aw, و‎ = a52X2 = 0.3 x ي8‎ × x, = 0,3 x (—0.0510) x (—1) = 0.0153 
Ab, = a6, = 0.3 x (—0.0471) = - 1 
Ab, = 8 = 0.3 x (-0.0510) = —0.0153. 


باستخدام التغييرات على جميع الأوزان والتحيزات الخاصة بشبكة ال ANN‏ تُستخدم 
امعادلات ۲۷-۵ و۲۸-۵ لتنفيذ التكرار الخاص بتحديث الأوزان والتحيزات على النحو التالي: 


Aw,, = 0.1 + 0.0141 = 0.1141‏ + (0) روس = (1) و وا 
W12(1) = wı 2(0) + ۵۷۷: = 0.2 + 0.0141 = 0.2141‏ 
Aw. = —0.1 + 0.0153 = —0.0847‏ + (0) رو = wz1(1)‏ 
Awz2 = —0.2 + 0.0153 = -7‏ + (0)و و = w22(1)‏ 
Aw; = 0.3 — 0.1793 = 0.1207‏ + (0) روس = (1) رونا 
0.1721 = 0.2279 - 0.4 = و و۵۷ + )2(0 و = Wa2(1)‏ 
b,(1) = b (0) + Ab, = —0.3 - 0.0141 = —0.3141‏ 
b2(1) = b2(0) + Ab, = —0.4 - 0.0153 = —0.4153‏ 
b3(1) = b,(0) + Ab, = 0.5 — 0.5061 = —0.0061‏ 


سيتم استخدام هذه المجموعة الجديدة للأوزان والتحیزات» )1( wy i‏ و bj (I)‏ لتمرير 
مدخلات سجل البيانات الثاني من خلال شبكة ال ANN‏ ومن ثم تحديث الأوزان والتحيزات 
مرة أخرى للحصول على )2( : wj‏ و(2) رط إذا لزم الأمر. تتكرر هذه العملية Bye‏ أخرى 
لسجل البيانات EJE‏ وسجل البيانات li‏ والعودة إلى سجل البيانات الأول» وهلم ja‏ 


10 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 


(لجزه الثاني 


حتی یصبح مقیاس ع اش انز النحو المحدد في المعادلة ۲۰-۵ ey‏ الحد 
المحدد مسبقاء على سبیل المثال» القیمة: 0.1. 

يمكن استخدام مقیاس خطأ ا لمخرجات» مثل E‏ أو خطأ متوسط الجذر التربيعي root-)‏ 
(mean-square error‏ على كافة سجلات البيانات التدريبية ليحدد متى يتوقف تعلم 
الأوزان والتحيزات الخاصة بشبكة ANN‏ عدد مرات Sal‏ على سبيل املثال ۱۰۰۰ تکرار. 
هو معيار آخر والذي يمكن استخدامه لوقف التعلم. 

يسمى تحديث الأوزان والتحيزات بعد تمرير كل سجل من سجلات البيانات في مجموعة 
البيانات التدريبية بالتعلم المتزايد (Incremental learning)‏ في التعلم اللتزايدء يتم 
تحديث الأوزان والتحيزات بحيث إنها سوف تعمل على نحو أفضل لسجل بيانات واحد. 
التغييرات القائمة على سجل Oblo‏ واحد قد تذهب في اتجاه مختلف» بحيث GINS‏ 
التغييرات التي تم إجراؤها لسجل بيانات آخرء مما يجعل عملية التعلم تستغرق وقتاً طويلاً 
لتتقارب إلى المجموعة النهائية للأوزان والتحيزات التي تتناسب لكل سجلات البيانات. التعلم 
بالدفعة الواحدة (batch learning)‏ ينبغي أن يوقف تحديث الأوزان والتحيزات حتی 
يتم تمرير كافة سجلات البيانات في مجموعة البيانات التدريبية من خلال شبكة ال ANN‏ 
وحتى يتم احتساب كل التغييرات المرتبطة بالأوزان والتحيزات وحساب متوسطاتها. يتغير 
متوسط الوزن والتحيز لجميع سجلات البيانات» وهو ما يعني, أنه يتم استخدام الأثر الكلي 
للتغيرات على الأوزان والتحيزات من قبل جميع سجلات البيانات» بغرض تحديث الأوزان 
والتحيزات. 

يؤثر معدل التعلم (learning rate)‏ أيضاً على جودة وسرعة استمرار التعلم. كما هو 
موضح في الشكل ۱6-۵ قإن معدل التعلم بقيمة صغيرقة على سبيل JEL‏ 0.07 ينتج dis‏ 
تغيير صغير للأوزان والتحیزات» ومن ثم يكون هناك انخفاض طفيف في E‏ ويجعل عملية 
التعلم تستغرق وقتاً طويلاً للوصول إلى قيمة الحد الأدنى العامة ل £ أو قيمة الحد GoM‏ 
ابمحلية ل . على الجانب الآخر, ينتج معدل التعلم ذو القيمة الكبيرة تغييراً كبيراً في الأوزان 
والتحيزات. الأمر الذي قد يسبب في أن عملية البحث عن W‏ لتقليل قيمة E‏ لا تصل إلى 
قيمة الحد الأدنى المحلية أو العامة ل . ومن هناء في مفاضلة بين معدل التعلم ذي القيمة 
الصغيرة ومعدل التعلم ذي القيمة الکبیرق هکن استخدام طريقة معدلات التعلم المتكيفة 
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خوار زمیات ae‏ أنماط التصنيف والتنبؤ 


بت یا معدل تم ید نیع An‏ عم ثم القیام بالتغییر إلى معدل تعلم صغير 
لأخذ خطوات صغبرة للوصول إلى قيمة الحد الأدنى ES‏ المحلية أو العامة. 
على عكس أشجار القرار في الفصل ء لا تُظهر أي شبكة عصبية صناعية ANN‏ نموذجاً 

واضحاً وصر بحا للتصنيف ودالة تنب تتعلمها شبكة ال ANN‏ من خلال البيانات التدريبية. 
يتم تمثيل الدالة ضمنياً من خلال أوزان الروابطء والتحيزات والتي لا هكن ترجمتها إلى أنماط 
تصنيف وتنبؤ GIS‏ معنى في نطاق المشكلة المبحوثة. على الرغم من أن المعرفة blak,‏ 
التصنيف والتنبؤ قد تم الحصول عليها من خلال شبكة ال ANN‏ فان هذه المعرفة غير 
متوفرة بشكل قابل للتفسير. ومن ثم. تساعد الشبكات العصبية الصناعية على أداء مهمة 
التصنيف والتنبةء وليس على أداء مهمة اكتشاف المعرفة. 

)١5-5( الشكل‎ 

أثر معدل التعلم 


E J قيمة الحد الأدنى العامة‎ 
Global minimum of E 


E قيمة الحد الأدنى المحلية ل‎ 
Local minimum of E 


قيمة كبيرة د AW‏ قيمة صغيرة د AW‏ 
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الجز ء الثاني 


0-0 الاختیار یر يبي لمعمارية الشبكة العصبية الصناعية من أجل ملائمة جيدة للبيانات 
(Empirical Selection of an ANN Architecture for a Good Fit to Data):‏ 
على عكس نماذج الانحدار في الفصل Y‏ لا تتطلب دالة تعلم التصنيف والتنبق من خلال 
الشبكة العصبية الصناعية ذات التغذية الأمامية المتعددة الطبقات ANN‏ تعريف شکل 
معين لتلك الدالةء مما يجعل الأمر صعباً عندما تكون مجموعة البيانات كبيرة. ونحن لدينا 
معرفة مسبقة قليلة عن المجال أو البيانات. تعتمد كثيراً درجة تعقيد الشبكة العصبية 
الصناعية ANN‏ والدالة التي تتعلمها وتمثلها شبكة ال ANN‏ على عدد الوحدات الخفية. 
فكلما زادت الوحدات المخفية لدی شبكة ال ANN‏ . أصبحت الدالة التي تتعلمها وتمثلها 
شبكة ال ANN‏ أكثر تعقيداً ولكن, إذا كان لنا أن نستخدم شبكة ال ANN‏ معقدة لتعلم 
دالة بسبطة. فاننا قد نرى Blo ٠‏ شبكة ال ANN‏ مفرطة في مطابقة البيانات data over-)‏ 
(fitting‏ ومن ثم تکون غير مناسبة» كما هو موضح في الشکل ۱۵-۵. في هذا الشکل, يتم 
تولید نقاط الییانات پاستخدام النموذج الخطي: 
رع + 2 ع رق 
حيث يدل الرمز ۶ على الخطأ العشوائي. ومع ذلك. تم تركيب نموذج غير خطي لنقاط 
البيانات التدريبية كما هو موضح بالدوائر الداكنة في الشكل ۱۵-۵ والتي تغطي كل نقطة 
بيانات تدريبية مع عدم وجود فرق بين القيمة الهدف ل ر والقيمة المتوقعة ل y‏ من 
الذموذج غير الخطي. على الرغم من أن النموذج غير الخطي يوفر Yo‏ مثالياً للبیانات 
day ual!‏ إلا أن الأداء التنبؤي للنموذج غير الخطي على لنقاط بيانات جديدة في مجموعة 
البيانات الاختبارية كما هو موضح بالدواثر البيضاء في الشكل 10-0 سيكون أكثر سوءاً من 
تلك الموجودة بالنموذج الخطيء × = باه وذلك للأسباب التالية: 
© يلتقط النموذج غير الخطي الخطأ العشواني E‏ في النموذج. 
o‏ إن الأخطاء العشوائية لنقاط بيانات جديدة تتصرف بشكل مستقل, ومختلف عن 
الأخطاء العشوائية لنقاط البيانات التدريبية. 
٠‏ إن الأخطاء العشوائية لنقاط البيانات التدريبية التي يتم التقاطها في النموذج غير 
الخطي لا تتطابق تماماً مع الأخطاء العشوائية لنقاط البيانات الجديدة في مجموعة 
البيانات الاختبارية» مما يسبب أخطاء في التنبؤ. 


101 استكشاف البيانات: نظريات وخوارزميات وأمثلة 
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e LN EEE,‏ تن لا زات 
جديدة في مجموعة البيانات الاختبارية. عندما لا يكون لدينا معرفة مسبقة بمجموعة بيانات 
معينة (على سبيل JEL‏ الشكل أو تعقيد دالة التصنيف والتنبؤ). ينبغي علينا القيام 
بامحاولة تجريبياً Jad‏ معماريات لشبكة ال ANN‏ بمستويات متفاوتة من التعقيد 
باستخدام أعداد مختلفة من الوحدات المخفية. يتم تدريب كل معمارية لشبكة ال ANN‏ 
elad‏ أوزان وتحيزات الروابط في مجموعة البيانات التدريبية. ويتم اختبار أدائها التنبؤي 
على مجموعة بيانات اختبارية. يتم اعتبار معمارية شبكة ال ANN‏ ذات الأداء الجيد على 
البيانات الاختبارية آنها تعطي تطابقاً وملاءمة جيدةٌ للبيانات ومن ثم يتم اختيارها. 


الشكل )40-0( 
مثال يوضح نموذجاً غير خطي مفرط في مطابقة البيانات من نموذج خطي 


¥ 
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الجز ٠ e‏ الثاني 


and AER) Sa E Stes 1-0‏ و 


يحتوي الموقع الإلكتروني (http://www. knuggets.com)‏ على معلومات عن أدوات 
استكشاف بيانات متنوعة. توفر حزم البرمجيات التالية أدوات برمجية للشبكات العصبية 
الصناعية ANNS‏ باستخدام طريقة التعلم بالتوالد الخلفي: 
e Weka (hitp://www.cs.waikato.ac.nz/ml/weka/)‏ 
e MATLAB ® (www.mathworks.com/)‏ 


بعض التطبيقات الخاصة بالشبكات العصبية الصناعية ANNS‏ يمكن العثور عليها في: 
(Ye et al, 1993; Ye, 1996, 2003, Chapter 3; Ye and Zhao, 1996,‏ 
)1997 


التمارين (Exercises)‏ : 
1-0 مجموعة البيانات التدريبية للدالة المنطقية, y= NOT x‏ معطاة في الجدول المرفق. 
استخدام الطريقة البيانية لتحديد حد القرارء والوزن» والتحيز للشبكة العصبية 
الصناعية ذات التغذية الأمامية أحادية الطبقة Solel (perceptron)‏ الوحدة لهذه 
الدالة المنطقية. 
مجموعة البيانات التدريبية: 
Y X‏ 
1- 1 
1 1- 


۲۵ بالنظر في الشبكة العصبية الصناعية GIS‏ التغذية الأمامية أحادية الطبقة 
(perceptron)‏ أحادية الوحدة في التمرین ۱-۵. آسند القيمة 0.2 كقيمة أولية 
للأوزان والتحیز واستخدام معدل التعلم 0.3. استخدام طريقة التعلم لعمل تکرار 
واحد لتحدیث الوزن والتحیز Youd‏ البیانات الاثنين للدالة المنطقية في التمرین ۱-۵. 


rl 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ 164۸ 
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۲۵ مجموعة البیانات التدريبية لدالة تصنیف ذات ثلاثة متغیرات خاصية ومتغیر هدف 
Joly‏ معطاة obol‏ استخدام الطريقة البيانية لتحدید حد القرار والوزن. والتحیز 
للشبكة العصبية الصناعية ذات التغذية الأمامية الأحادية الطبقة (perceptron)‏ 
أحادية الوحدة لدالة التصنیف تلك. 


مجموعة البیانات التدریبية: 


y X3 X2 1 
-1 -1 -1 -1 
-1 1 -1 -1 
-1 -1 1 -1 
I 1 1 -1 
-1 -1 -1 1 
1 1 -1 1 
1 -1 1 1 
1 1 1 1 


۵ تُستخدم الشبكة العصبية الصناعية ذات التغذية الأمامية أحادية الطبقة 
(perceptron)‏ أحادية الوحدة لتعلم دالة التصنيف في التمرين ۳-۵. أسند القيمة 
4 كقيمة أولية للأوزان والتحيز واستخدام معدل التعلم 0.2. استخدام طريقة التعلم 
لعمل تكرار واحد لتحديث الوزن والتحيز لسجلي البيانات الثالث والرابع لهذه الدالة. 

0-0 لنفترض أن لدينا شبكة عصبية صناعية ذات تغذية أمامية ثنائية الطبقة ومترابطة ترابطاً 
كاملا بمتغير مدخلات واحد» ووحدة واحدة مخفية. ومتغيري مخرجات اثنين. أسند 
القيمة 0.1 كقيمة أولية. للأوزان والتحیزات» واستخدام معدل التعلم 0.3. دالة 
التحويل المستخدمة (sigmoid function)‏ هي الدالة السينية لكل وحدة. قم 
بإظهار التصميم الخاص بالشبكة العصبية الصناعية ANN‏ وقم بعمل تكرار واحد 
لتحديث الوزن والتحيز باستخدام خوارزمية التعلم بالتوالد الخلفي» وامثال التدريبي 
التالى: 
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الجزه الثاني 


1-0 تستخدم شبكة العصبية الصناعية ال ANN‏ التالية مع ذات الأوزان والتحيز abl‏ 
لتعلم دالة XOR‏ دالة التحول للوحدات ١‏ و 6 هي الدالة الخطية. دالة التحول 
للوحدات ۲ و ۳ هي دالة التحول السينية. معدل التعلم هو6-0.3. أعمل تكرار واحد 
لتحديث الوزن والتحيز ل 1 b2 .w4,3 w4, 2 w3, 1 w2, 1 wl, 2 wl,‏ بعد 
تغذية المتغيرات بالقيم 0 = 1× . 22-1 في شبكة ال ANN‏ 


XOR 
1 x Xi 
0 0 0 
1 1 0 
1 0 1 
0 1 1 
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خوار زميات لستکشاف bul‏ ۱ التصنيف ف Sails‏ 


A)‏ لدعم ۳ اطتجه 
Support Vector Machines‏ 


يقوم الدعم الآلي اطتجه (Support Vector Machines-SVM)‏ بتعريف دالة بفئتين 
مستهدفتين (fwo target classes)‏ من خلال حل مسألة برمجية تربيعية (quadratic‏ 
programming problem)‏ في هذا الفصلء نستعرض بإيجاز الأساس النظر ي للدعم 
الآلي المتجه (SVM)‏ الذي يؤدي إلى صياغة مسألة برمجية تربيعية ة elas‏ مصنف ما. نقوم 
بعد ذلك باستعراض صياغة الدعم الآلي التجه (SVM)‏ لصتف خطي (linear‏ 
Libs classifier)‏ قابلة للانفصال (linearly separable problem) bs‏ تليها 
صياغة الدعم الآلي املتجه (SVM)‏ لمصنف خطي وبلسألة قابلة للانفصال بشكل غير خطي» 
وصياغة الدعم الآلي التجه (SVM)‏ لصنف غير خطي وبلسألة قابلة للانفصال بشكل غير 
خطي باستخدام دوال کیرنل (kernel functions)‏ نقوم Lal‏ باستعراض طرق لتطبيق 
الدعم الآلي المتجه (SVM)‏ لدالة تصنيف بأكثر من فئتين مستهدفتين. وترد قائمة من حزم 
البرمجيات لغرض استكشاف البيانات تساند الدعم JYI‏ ابمتجه (SVM)‏ وسيتم استعراض 
بعض التطبيقات الخاصة بالدعم JYI‏ المتجه (SVM)‏ مع مراجعها. 


۱-۲ الأساس النظري لصياغة وحل مشكلة التحسين glad‏ دالة التصنيف 
(Theoretical Foundation for Formulating and Solving an Optimization‏ 
Problem to Learn a Classification Function):‏ 
بالنظر إلى مجموعة بها عدد 7۶ من نقاط البيانات (Xs, Vy), Xn Vn)‏ و إلى دالة تصنيف 
تطابق وتناسب البیانات. PEMA)‏ حيث تأخذ y‏ واحدة من القيم النوعية }1 d-1,‏ و × هو 
متجه من التغرات ذو عدد «رمن الأبعاد. و 4 هو مجموعة من المعلمات (parameters)‏ 
في الدالة ر التي يتم تعلمها وتحديدها باستخدام البيانات التدريبية. على سبيل JULI‏ إذا 
تم استخدام الشبكة العصبية الصناعية p (ANN)‏ يف وتمثيل دالة التصنیف 7 فتكون 
أوزان الروابط والتحيزات هي المعلمات في f‏ تقوم مخاطر التصنيف ا متوقعة (the‏ 

expected risk of classification)‏ باستخدام We‏ لقياس خطأ التصنیف» وتُعرف بأنها: 
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الجزء 3 الثاني 


R(a) = f(x) — yl P(x y)dxdy, 5 


حيث تشير (xy)‏ 2 إلى دالة الاحتمال ل × وبز, وتعتمد مخاطر التصنيف المتوقعة على قيم 
4 تشير القيمة الأقل لمخاطر التصنيف المتوقعة إلى أداء تعميم أفضل لدالة التصنیف» وذلك 
يعني أن تصبح دالة التصنيف Bish‏ البيانات بشكل صحيح. 
ال مجموعات المختلفة من قيم 4 تعطي دوال تصنيف مختلفة A(X)‏ ومن ثم تنتج تنتج أخطاء 
تصنيف مختلفة ومستويات مختلفة من المخاطر المتوقعة. يتم تعريف امخاطر التجريبية 
على dys‏ من نقاط البيانات n‏ كالتالي: 


n 
1 
Remp(A) ==> Ifa) - Yil. ry 
i=1 


يقدم فابنيك وتشيرفونينكيس )1989,2000 (Vapnik,‏ القيد التالي على مخاطر التصنيف 
المتوقعة والذي يصبح نافذاً بالاحتمالية n‏ - /: 


R(A) S Remp(A) + 


حيث يدل ۷ على البعد الخاص ب (Vapnik and Chervonenkis) VC‏ ل fa‏ ويقيس 
درجة تعقيد 4 والذي يتم التحکم به بعدد المعلمات A‏ ف / للعديد من دوال التصنيف. 
ومن ثم. فإن مخاطر التصنيف المتوقعة تكون مقيدة بكل من مخاطر التصنيف التجريبية, 
والحد الثاني في المعادلة ۳-۷ مع کون الحد الثاني يتزايد مع بعد .VC‏ لتقليل مخاطر التصنيف 
المتوقعة, نحتاج إلى تقليل كل من المخاطر التجريبية وبعد VC‏ ل برف الوقت نفسه. وهذا 
ما يسمى بدا تقليل ا مخاطر الهيكلية. حيث إن تقليل قيمة بعد VC‏ ل fa‏ أو درجة 
تعقید ‏ هو مثل البحث عن دالة تصنيف ذات طول وصف Gal‏ لعمل تعميم جيد كما 
تم مناقشته في الفصل £ يبحث الدعم JYI‏ المتجه (SVM)‏ عن مجموعة من القيم A‏ 
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واي :فال سن اا gis don‏ وعن قيمة ُد bist moana VC‏ 
Jog‏ مشكلة التحسين أو الثالية (Optimization problem)‏ وتحديداً. مشكلة البرمجة 
التربيعية. توفر الأجزاء التالية صياغة الدعم الآلي امتجه UAL (SVM)‏ البرمجة التربيعية 
لثلائة أنواع من مشاكل التصنيف: )١(‏ الصتف الخطي والمشكلة القابلة للانفصال Lbs‏ 
(Y)‏ المصنف الخطي والمشكلة القابلة للانفصال بشکل غير خطيء و(۳) Catal‏ غير الخطي 
والمشكلة القابلة للانفصال بشكل غير خطي. وكما نوقش في الفصل © فان دالة AND‏ 
المنطقية هي مشكلة تصنيف قابلة للانفصال Ube‏ ولا تتطلب سوى الصنف الخطي 
المذكور في النوع (۱), ودالة XOR‏ المنطقية هي مشكلة تصنيف قابلة للانفصال بشكل غير 
«bs‏ والتي تتطلب المصنف غير الخطي المذكور في النوع (۲). ولأن أي مصنف خطي 
عموماً يكون له قيمة أقل لبعد VC‏ أكثر من المصنف غير الخطيء فان استخدام المصنف 
الخطي لمشكلة قابلة للانفصال بشكل غير خطي والمذكورة في النوع (۲) هكن أن ينتج أحياناً 
حد Gal‏ لمخاطر التصنيف المتوقعة أقل من استخدام مصنف غير خطي لمشكلة قابلة 
للانفصال بشكل غير خطي. 


۲-۲ صياغة الدعم JYI‏ المتجه (SVM)‏ لمصنف خطي ولمشكلة قابلة للانفصال خطياً 


(SVM Formulation for a Linear Classifier and a Linearly 
Separable Problem): 


EEE‏ خطي لشبكة عصبية صناعية ذات تغذية أمامية أحادية 
الطبقة (perceptron)‏ في الفصل 0: 
fp (x) = sign(w'x + b). (6-1)‏ 


حد القرار الذي يفصل فثتين مستهدفتين (1,1-] هو: 


w'x+b=0. (0-1) 
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ویعمل الصنف bel‏ 7 التالية: 


y =sign(w'x+b)=1 ifw'x +b >0 (01-3) 
y = sign(w'x +b) = -1 ifw'x+b<0 


إذا ما فرضنا القيد التالي: 
lwl] > ۰,‏ 


حيث إن M‏ عبارة عن ثابت» وتدل || على مقیاس طتجه ۷ GS‏ عدد p‏ من الأبعاد 
ویعرف آنه: 


lwil = ۳ + ۰. + w. 


إن مجموعة الفضاءات الجزئية (hyperplanes)‏ العرفة كما يلي: 
sign(w'x + b)|Ilwll > M},‏ = ور 
تحتوي على بعد VC‏ المسمى V‏ الذي يحقق القيد )2000 ,1989 (Vapnik,‏ 
v > min{M?, p} +1. (۷-1)‏ 


وبتخفيض قيمة wl]‏ > ستنخفض M dad‏ ومن ثم تنخفض 5 قيمة البعد VC‏ المسمى V‏ 
كما هو مطلوب من قبل مبدأ تقليل المخاطر الهيكلية تقليل المخاطر الهيكلية. نريد تخفيض 
قيمة | أو ما يكافئها: 


a A A A LS Kea ea 
استكشاف البيانات: نظريات وخوارزمیات وأمثلة‎ ie 


خوارزمیات لاستکشاف ف أنماط التصنيف والتنبؤ 


تغيير قيمة Y W‏ يغير ميل الفضاءات الجزثية لحد القرار. وتغییر قيمة b‏ لا يغير ميل 
حد القرارء ولكنه يقوم بتحريك الفضاءات الجزئية لحد القرار بشكل متواز. على سبيل JESI‏ 
في فضاء المتجه ثنائي الأبعاد كما هو مبين في الشكل رقم ۰۱-1 يكون حد القرار هو: 


۷۷21 + W2X2 +b=0 or X2 


Wı b (4-1) 
= Sh حاتت‎ 
W2 W2 


ويكون ميل المستقيم لحد القرار هو W / W2‏ وتكون نقطة التقاطع لمستقيم حد القرار 
هي w2‏ /5-. ان تغيير قيمة W‏ إلى القيمة  CwW‏ حيث Cw‏ ثابت لا يغير ميل مستقيم حد 
القرار لأن: w2‏ / رس“ = cwwi/cywe‏ -. وتغيير قيمة 5 إلى القيمة Cob‏ حيث Ch‏ هو 
col‏ لا يغير أيضاً ميل مستقيم حد القرارء ولكنه يغير نقطة تقاطع ابلستقیم —Cob/W2‏ 
ومن ثم يتحرك الخط المستقيم بشكل متواز. 

ويبين الشكل ١-5‏ أمثلة لنقاط بيانات بقيمة هدف تساوي 1 (يشار إليها بالدوائر 
الصغبرة) وأمثلة لنقاط بيانات ذات القيمة الهدف 1- (المشار إليها باطربعات الصغيرة). 
من بين نقاط البيانات بالقيمة الهدف المساوية 1ء نأخذ في الاعتبار نقطة البيانات الأقرب 
إلى حد القرارء Xt‏ كما هو موضح بنقطة البيانات ذات الدائرة الداكنة في الشكل JT‏ من 
بين نقاط البيانات بالقيمة الهدف المساوية ل 1- نأخذ في الاعتبار نقطة البيانات الأقرب إلى 
حد القرارء ,-ت كما هو موضح بنقطة البيانات ذات المربع الداكن في الشكل AA‏ لنفترض 
أنه بالنسبة للنقطتين +× X-19‏ من نقاط البيانات يكون لدينا: 

W'X4, +b = C41 


1 )۱۰-1( 
w'x_ +b ع‎ c. 


استكشاف البیانات: نظريات وخوارزميات وأمثلة 110 


الجزء الثاني 


1 ey ee [۱ ل‎ 


CyW طبع + برد‎ = 1 
w +1 b (13-1) 


Cyw'x_, + cgb = -1 


الشكل )4-9( 
الدعم JY‏ المتجه (SVM)‏ لصنف خطي ومشكلة قابلة للانفصال خطيا. (a)‏ حد القرار ذو هامش 
كبير. (D)‏ حد القرار ذو هامش صغير 


ولا تزال تدل على القيم التي تم تغبيرها بواسطة ۷ و 6. ويكون لدينا: 
min{|w’x,; + b|, i=1,..,n}=1,‏ 


وهو ما يعني ضمناً 1-|5 + × |w‏ لنقطة البيانات في كل فئة مستهدفة أقرب إلى حد 
القرار w'xtbh=0‏ 


على سبيل JEE‏ في فضاء المتجه ثنائي الأبعاد عد تصبح المعادلات ۱۰-1 و۱۱-1 كما بلي: 


WiX41,1 + W2X41,2 + D = يبه‎ OF) 


۱11 استكشاف البیانات: نظریات وخوارزميات وأمثلة 


T 117226-22 +b 6-1 (F-7)‏ يا 
CyW1X+1,1 F CwW2X+1,2 + cyb =1 (\£-1)‏ 
CwW1X-1,1 + CyW2X-12 + Cpb = -1 (40-1)‏ 


نقوم بحل المعادلات من ۱۲-1 إلى ١0-17‏ للحصول على Cba Cw‏ علينا Yal‏ استخدام المعادلة 
15-5 للحصول على: 
cpb‏ — 1 
حدم N‏ اس 


Cw 
WX 44,1 + W2X412 


ونعوض عن Cw‏ ابلوجودة 3 العادلة 11-1 داخل 1١06-1‏ للحصول على: 


) + ( ره 1 
W WX‏ — 
FPF ۱۷‏ 0 * ربولا + WiXa‏ 
.1 = تاره + 
بعد ذلك نستخدم املعادلات ۱۲-۱ و۱۳-1 للحصول علی: 
(۱۸۰۱) 2 - وبه = W1X441 + W2X41,2‏ 
WIX-11 + WaX-12 = C1 7 b, (14-1)‏ 


ونعوض باستخدام المعادلات 18-5 و۱۹-1 داخل ابلعادلة W-1‏ للحصول علی: 


1—c,b 


es: ه)‎ — b) + رای‎ = -1 


استكشاف البيانات: نظریات وخوارزميات وأمثلة vw‏ 


الجزه الثاني 


2b =" C44 = 6-41 


۲۰-۹ ا = 
ان فرع - b? +b‏ 


Ch 


وأخيرا نستخدم المعادلة ۱۶-۱ لحساب Cw‏ وتعوض بال معادلات ۱۸-۱ ۲۰-۱9 3 امعادلات 


الناتجة للحصول على: 
زه -1+ 6/9 - cb _ 1 eb _ 1 < (2b -c‏ —1 ا 
Pb C+ -‏ یه Waters PWX‏ ۷ 
ع + ] - 1 
ter )۲۱-۰(‏ 


` (Ce - ()5 +1- ca) 

المعادلات ۲۰-۲ و5١"‏ توضح كيفية dole]‏ تقييم bg W‏ في فضاء التجه ثناني الأبعاد x‏ 
لتكن W‏ و 8 تشير إلى القيم المتغيرة. الفضاء الجزني يشطر (ينصف) المستقيمين + انا 
b=]‏ و1--5 + wx‏ بالستقیم 2-0 + ۸۷ كما هو Que‏ في الشكل ۱-۱. أي نقطة × 
من نقاط البيانات ذات فئة مستهدفة 1+ تحقق: 


۷۷ + ۲ < 1 


حيث ان نقطة البیانات ذات الفثة الستهدفة 1+ الأقرب إلى 8-0 + wx‏ یکون لدیها 
.w'x+ b=]‏ أي نقطة × من نقاط البیانات ذات الفئة المستهدفة 1- تحقق: 


wx +b > -1 


حيث إن نقطة البیانات ذات الفئة الهدف 1- الأقرب إلى 8-0 + wx‏ یکون لدیها wx‏ 
[- -8+ ومن ثم. فان ابلصنف الخطي يمكن تعریفه على النحو التالي: 


Vu‏ استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


y = sign(w'x +b) -ح‎ 1 ۰.۶۷۳2 + 0 < 1 (¥¥-1) 
y=sign(w'x+b)=-1 ifw’x+b<-1. 


لتقليل قيمة المخاطر التجريبية Remp‏ أو خطأ التصنيف التجريبي كما هو مطلوب من مبدأ 
تقليل المخاطر الهيكلية اعرف بالمعادلة ۳-۲ Lila‏ نتطلب: 


yj(w'x;+b)>1, i=1,..,7. (F-1) 


إذا كانت Y=‏ فنحن نريد 1 < 8 + :× س بحيث ينتج المصنف الخطي في ابمعادلة 
۲۲-۲ الفئة المستهدفة 1. إذا كانت YH -d‏ فنحن نريد 1- ك 7 + :× W۷‏ بحيث ينتج 
المصنف الخطي في المعادلة 77-1 الفئة المستهدفة 1-. ومن ثم تحدد ابلعادلة 78-7 
متطلبات التصنيف الصحيح لعينة من نقاط البيانات #,... ,1= (x, y)‏ لذلك» بوضع 
المعادلات 8-5 و۲۳-1 معاً يتيح لنا تطبيق مبدأ المخاطر الهيكلية لتقلیل كل من Uns‏ 
التصنيف التجريبي وبعد VC‏ لدالة التصنيف. يتم وضع المعادلات ۸-۲ ۲۳-19 معاً من 
خلال صياغة معادلة برمجية تربيعية: 


1 
minw» 5 lwl? (re 


y(w'x,+b) 21, i=1,..,n. 


استکشاف البیانات: نظریات وخوارزمیات وأمخلة ۱1۹ 


الجزء الثاني 


۳-۲ التفسبر ۳3 لصياغة غة الدعم sn‏ ا ایلتجه GVM).‏ للمصئف bill‏ 
(Geometric Interpretation of the SVM Formulation for the‏ 
Linear Classifier):‏ 
يوجد تفسير هندمي ل |w)‏ في الدالة الهدف (Objective function)‏ للمسألة 
البرمجية التربيعية في المعادلة ۲۶-۲ وهو أن ||| /2 تمثل المسافة للفضائين الجزئیین WX‏ 
b=]‏ + و1-=ط + we‏ وتُسمى هذه المسافة هامش حد القرار أو هامش المصنف 
الخطي, بحيث يكون المستقيم 5-0 + wx‏ هو حد القرار. لإظهار هذا في الفضاء املتجه 
الثنائي الأبعاد ل ىت دعونا نقوم بحساب مسافة المستقيمين المتوازيين 8-1 + WX‏ و w'x‏ 
1-- + في الشكل ۱-1. هذان المستقيمان المتوازيان اللذان هكن تمثيلهما على النحو التالي: 


WX, + W2X2 + b = 1 )۲۵-۰( 

)1-1( ,1ب = WX + W2X2 + b‏ 
ا مستقيم التالي: 

۷۷۵2 < WX) = 0 (¥V-1) 


يمر عبر نقطة Le!‏ )0,0( ويكون متعامدأ على المستقيمات ا معرفة في العادلات 1- 
YO‏ 71-19 لأن ميل المستقيمات التوازية في المعادلات 70-1 7-79 هو —Wi/W2‏ ومیل 
ا مستقيم في امعادلة ۲۷-۲ هو رس / 2« والذي هو المعكوس السالب ل702/ Wi‏ من 
خلال حل المعادلات 70-1 و۲۷-1 لكل من :ا و 22 نحصل على إحداثيات نقطة البيانات 
حيث يتقاطع هذان المستقيمان: 


1-b 1 - 
ی‎ W س‎ 
w2 +w? wiew 2 


A E a ne i e e n ee R E 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ 1۹۷. 


خوار زميات لاستكشاف blai‏ ۱ التصنيف sel‏ 


من خلال حل اللمعادلات 71-5 و۲۷-1 لكل من إلا X29‏ نحصل على إحداثيات نقطة 
البيانات حيث يتقاطع هذان المستقيمان: 


—-1-b —1-b 
—— w, س ی‎ 
wtw? Vwè +2 ? 


-1-b „1-b ) 1-b 1-b امسافة ر“‎ 5 
wes Ww EET ثم نحسب مسافة بين‎ 
(a وس‎ +w و له‎ (Ga spew”) 


نقطتي البيانات 


i 1 - ۵ -1-b ip 19 1 ? 
= -pmm - — © — س‎ W 
w2 Fw 1 w2 + w1 wtw? 2 w2 w2 2 


E 221:92 + 22۷2 = a = EN (A-1) 
wy + 7 i ° تسر تبي‎ iwl 


ومن ثمء فإن تقليل قيمة ?|||\)1/2( في دالة الهدف للمسألة البرمجية التربيعية في 
المعادلة ۲۶-۲ يكون بتعظيم هامش المصنف الخطي أو أداء التعميم للمصنف الخطي. 
یظهر الشكل (a)\-1‏ و 5(1-1) مصئفين خطيين مختلفين بحدي قرار مختلفين يصنفان 
نقاط البيانات الثمان بشكل صحيح ولكن لهما هوامش مختلفة. يكون للمصئف الخطي في 
الشكل (a) ١-1‏ هامش SÍ‏ ومن المتوقع أن يكون له أداء تعميمي أفضل من ذلك التعميم 
في الشكل ١-5‏ (5). 


٠-١‏ حل المسألة البرمجية التربيعية kal‏ خطي 
(Solution of the Quadratic Programming Problem for a Linear‏ 
Classifier):‏ 
DLAI‏ البرمجية التربيعية (quadratic programming problem)‏ ف الصيغة 1- 
۶ لها دالة هدف تربيعية وقيد خطي پالنسبة ل ۷ Dg‏ وتسمی مسألة التحسین الحدب 
(Convex Optimization Problem)‏ وهکن حلها باستخدام طريقة مضاعف لاقرینج 
(Lagrange Multipliers)‏ للمسألة التالية: 


استكشاف البيانات: نظریات وخوارزميات وأمثلة Wh‏ 


الجزء الثاني 


PTA MT SAN ENR A 


n 
1 
miny, »pMaXyooL(w, b, a) = 2 lwll? — 2 a; اس رآ‎ xi + (ط‎ - 1] (¥4-1) 


1-1 


د بحيث تخضع للقيد: 


507 + b) = 1] =0 i=1,..,n (۳۰-1) 
a; 2< 0 i= 1.7 


حيث 1,... ,8-1 Oy,‏ هي مضاعفات لاقرينج غير السالبة. وتعرف ال معادلتان امعرفتين 
في جزئية القيود بشرط کاروش-کوهن-توکر (Karush - Kuhn - Tuker condition)‏ 
(Burges, 1998)‏ وتمثلان تحولاً لقيد المتراجحة في المعادلة ۲۳-۲. إن الحل للمعادلة 1“ 
٩‏ يكون عند النقطة الواصلة بين قمتين Saddle Point)‏ ل Cue L= (w,b,a)‏ يتم 
تصغير L= (W,b,0)‏ بالنسبة WJ‏ وط وتعظیمها بالنسبة ل 6. يعطي تصغير (L/2)| Wl?‏ 
بالنسبة # bg‏ دالة الهدف في المعادلة ١-6؟.‏ إن تصغير قيمة: 


n 
- a [ywx +b) - 1] 
i=1 
يكون بتعظيم قيمة:‎ 
n 


X a [ye(w'x; +b) - 1] 


i=1 


وذلك بالنسبة ل »© ويحقق 1 < yifw'xi + b)‏ - التي تمثل القيد في المعادلة ۲۶-۲ 
لأن 0 < به. عند النقطة حيث يتم تصغير (»,ط,1)۷ بالنسبة W‏ وط لدينا: 


RST pet iia SEAN PR eT, سد مسبت 707 الات‎ TT a aT ng محص اريمج‎ ai ی ل‎ 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ wy 


خوارزميات لاستكشاف أنماط التصنيف والتنبق 
E TY ete a an Bes a RRS‏ این اما 


ay اکن‎ a SETAE AE MET TANS ESOT NID ۲۰3۳ Lt 


OL(w, b,a ‘ = 
awe =w -X ayo =0 or w= 3 0:2 (۳1-1) 


ÛL(w, b,a) = 


i=1 
والتي بها‎ , iY) فقط عن طريق نقاط البيانات التدريبية‎ w لاحظ أنه يتم تحديد‎ 

-a< 0‏ وتسمى متجهات البيانات التدريبية والتي بها 0<به بالمتجهات الداعمة 
(Support Vevtor)‏ وباستخدام شرط كاروش-كوهن-توكر في ابلعادلة ۳۰-۲ وأي متجه 
دعم (xii)‏ ب 0> يكون لدينا: 

yilw'x;+b)-—1=0 (F-1) 
من أجل تحقيق المعادلة ۳۲-7. لدینا أيضاً:‎ 

y2 =1 (r€-1) 
ل م ونحصل علی:‎ VE-TI ۳۲-1 تأخذ القيمة 1 أو 1-. نقوم بحل المعادلات‎ yi OY 

b =y; — Wx; (o-1) 


لان: 


yi(w'x; + b) -1=y,(w’x; + yi — wx) - 1 = y? - 1 > 0 


استكشاف البيانات: نظريات وخوارزميات وأمثلة wY‏ 


الجزء الثاني 


ولحساب W‏ پاستخدام العادلات ۲۱-۲ ۳۲-19 وحساب b‏ باستخدام العادلة ۳۵-۱ 
نحتاج أن نعرف قیم مضاعفات لاقرینج ». نقوم بتعویض المعادلات ۳۱-1 و۳۲-1 داخل 
L/w, b, a)‏ في الصيغة ۲۹-۱ للحصول على L (a)‏ 


=1 jai 
n 


=2 a; — 2, >») رتیه‎ 777 2:2 (۳1-1) 


i=1 =1 j=1 


a n 
1 
L(a) = 3 > 0:0 رادرب(‎ — 5 5 Uaj رلاولا‎ 23 - b > ay, + ` ay 
121 jel 
n 


ومن ثمء فان اللسألة المزدوجة (dual problem)‏ للمسألة البرمجية التربيعية في 


الصيغة 76-1 هي: 
n 1 n n‏ 
max,L(a) = > Qi — =). 2 Qij YIYjXiX; Y-Y‏ 
i=1 i=1 j=1‏ 
بشرط أن: 
n‏ 
aiy; = 0‏ 0 


n 
اس زاره‎ +b) -—1]=0 or 2 «o, JIYA + GYD - به‎ =0 i=1,..,n 


i=1,..,n‏ 0ح به 


وباختصار, فإنه يتم حل المصنف الخطي للدعم الآلي المتجه SVM‏ بالخطوات التالية: 


we‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات لاستكشاف bui‏ التصنيف والتنيق 


[۱ prem re -4 


n n 11 
1 
max,L (a) = x =) 2 0:0 Yj 
i=1 


i=1 j=1 


n 


2 ay =0 


i=1 
n 


0:0 Wij xix; + uyib - يه‎ = 0 i=1,..,n 
j=1 
a 20 i=1,..,n 


W استخدم ابلعادلة ۳۱-۹ للحصول على‎ -Y 


n 
W = 3 Qi ۰ 


1-1 


ib للحصول على‎ (Xi Yi) استخدام المعادلة ۳۵-۲. ومتجه الدعم‎ -۳ 
b = yi — WX. 


Y-T وتُعطى دالة قرار المصنف الخطي بالمعادلة‎ 
y = sign(w’x +b) =1 ifw’x+b>1 
y=sign(w’x+b)=-1 ifw’x+b<-1. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 1o‏ 


الجزء الثاني 


أو با معادلة 1-€: 


n 
fue) = sign(w'x + b) = sign 5. a, yaxx + E 
i=1 
ودالة قرار‎ 6 Ww لاحظ أن متجهات الدعم فقط والتي بها 0<:» تسهم في حساب‎ 
المصتف الخطي.‎ 


امثال 4-1 

ode‏ المصتف الخطي للدعم JVI‏ امتجه (SVM)‏ لدالة AND‏ في الجدول ۸-۵ والتي 
يتم نسخها هنا في الجدول ١-1‏ بحيث يكون x, X2)‏ )=× هناك أربع نقاط من نقاط 
البيانات التدريبية في هذه السألة. نقوم بصياغة Jog‏ مسألة التحسين في الصيغة ١6-1‏ على 
النحو التالي: 


1 
rity wab z [(w1)* + [2(وس)‎ 


w + و۷‎ -  < 1 
۱۷ - و۷۷‎ -  < 1 
وبا + رتزا-‎ -  < 1 
wi + ۷ + م‎ 21. 


باستخدام شر یط الأدوات ایلسمی (Optimization)‏ في برنامج ماتلاب (MATLAB®)‏ 
نحصل على الحل الأمثل التالي للمسألة التحسين المذكورة آنفاً: 


w;=1, w2=1, b=-1 


۰۰۰۰۰۰ ل a DA TTT a‏ ب ۰۰۹۰ سح 
۱۷ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات ی pul‏ التصنيف gualla‏ 


هذا الحل يعطي دالة القرار في المعادلة ۲۲-۲ أو ۶-1 كما يلى: 
1 < 1- و2 + y= sign ([1 1] K] — 1) = sign(xy tx, - 1( =1 ifx‏ 


y= sign (1 11 أ‎ - 1) = sign(x + x» —-1) = —-1 ifxy+x,-1<-1 
أو‎ 


fwb (x) = sign(w'x + b) = sign (u 1] he] - 1) = sign(x, + xz - 1). 


(1-1) الجدول‎ 
AND الدالة‎ 
رقم سجل البيانات المدخلات المخرجات‎ 
Output Inputs Data Point # 
y Xa ¥ i 
=1 =I 1 1 
-1 1 -1 2 
-1 -1 1 3 
1 1 1 4 


Si 1 يمكننا أيضاً صياغة مسألة التحسين في الصيغة‎ 
12 11 
max,l(a) = م‎ a,— 33 3 00 Yiyi XiX 
i=1 i=1 f 
1 t 
= a + a2 + و0‎ +O, - 71 ]0 01121/171 21 + 2 


t f i + 

212 و1‎ + 010431136134 + 0201021713231 + 02 2 
F t و‎ 

102030721733236 + 0204222 + 0301131173331 1-32 


استكشاف البيانات: نظريات وخوارزميات وأمثلة ليل 


HA 
الجزء الثاني‎ 
ا‎ 3 
MON CRT ELF 21 LS PL TTL PION که یار‎ a نيلات کب !لماك‎ 09۲۸۸ TN OO کرد‎ TEST SRILA ]هر‎ ET 


+0303 V3 و۲ و72 ول(‎ + A304Y3V4X3X4 + 41J4 14X1 + A402Y4Y2X4X2 
+ ج00‎ V4V3%X4Xq + “404444 4] 
1 = 

= dı + 0 + و0‎ + ۵4 -5 [un )-1()-1(]-1 -1[ Fil 

]4 [)1- 1(]۳-1-)(1-)معوع2 + ]1[ 11- +a-‏ 
]7[ (11-] رد رد يديه + [f]‏ 1- 1-](1(1-)يميه2+ 

]3[ [11-](1)1-)يعيه2 + ]$ | [11-](1-)(1-)يهيه2+ 

+20-1()-1(]1 -1 [7] +2 -11]1[ 
+2a,04(1)(1)[11] 0 


1 
)40203 — ,40,0 - 202 + 202 + 203 + 07 2 - و0 + ينو + وه + Qy‏ = 


وه ¬ وه ¬ -ai‏ 


5 a + 201 04 + 20 05 + A + a2 + a3 + 04 
—(a, — a4)? - (a, - یه + وه + يه + وه + 2(وه‎ 

بشرط أن: 
n‏ 


> Qi Yi = 0131 + وزج‎ + Az V3 + AsV, = ج0-02-0-‎ +a, = Û 


i=1 
كما ياي:‎ (Eai 00 ۱ + مره‎ = a = 0 i= 1,2,3,4) وتصبح‎ 


a(-D [a (D-1 ~11] + ال تاضوم ]۱ تایه‎ 
1(]1)به‎ 1] Eil +a,(-l)b-a, or -al-2a = 2( - وه - ره‎ = 0 
a(-D [a -DI-1 ]لت‎ Jeane ال اوه + ]له‎ 


0 = يه - or —a,(—2a, - 2az) — azb‏ یه - ن((1-)جه + ۳ [1 1(]1)ي» 


WA‏ استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


Sally لخدف ب‎ | al a خوارزميات‎ 


aot) outa} -J| ۳ nf 7 af] 


or —ag(—2«ر — 2«g) — ab — «3 = Û‏ وه - 1(9-)ه + Al‏ ]1 1(]1)ي» 
-ah‏ يم ]11 اوه +[ )1- a(D [a D-1‏ 


0 = په a,b-‏ + )204 + يه2)يه or‏ يه - (1(5)يه + (a‏ ]1 1(]1)يه 
a, 20 i=1,2,3,4‏ 
باستخدام شريط الأدوات المسمی (Optimization)‏ في برنامج MATLAB®‏ لحل 
مسألة التحسين المذكورة أعلاه. نحصل على الحل الأمثل: 
a2=0.5, a3=0.5, ag=l, b=-1,‏ ,0-0 
قيمة دالة Gayl‏ تساوي 1. 


تشير قيم مضاعفات لاقرينج إلى أن نقاط البيانات الثانية والثالثة والرابعة في الجدول 
۱-1 هي متجهات الدعم. ثم تحصل بعد ذلك على س باستخدام اللعادلة ۳۱-۹: 
4 


w = > 0 ۰ 


i=1 
Wı = 01171311 + 0222221 + 03031311 1 
= )0()-1()-1( + (0.5)(—1)(—1) + )0.5()-1()1( + )1()1()1( = 1 


W2 = 01171312 + «2722,2 + Q3Y3X3,2 + A4Y4X4,2 
= (0}(—1}(-1) + (0.5)(-1)(1) + (0.5)(—1)(-1) + (1)(1)(1) = 1 


استكشاف البيانات: نظريات وخوارزميات وأمثلة wa‏ 


الجزء + اف 


الحل 1۳3 يتضمن بالفعل قيمة b=)‏ نحصل على نفس قيمة ery b‏ ابلعادلة 
۳۵-۱ ونقطة البیانات الرابعة کمتجه الدعم: 


b=y-w'x,=1-[1 1(]|--1‏ 
يعطي الحل الأمثل للمسألة المزدوجة للدعم JYI‏ المتجه SVM‏ دالة القرار نفسه 


y= sign )]1 1] ۳ - 1) = sign +x2-1)=1 ifxy+x,-121 
y= sign ([1 11 ۳ 1) = sign(x, + x ~1) = -1 ifx,+x,-1<-1 


i 
3 
fvp(@) = sign(w’x + b) = sign (11 1) ۳ - 1) = sign(x, + x2 — 1). 


ومن ثم» فإن مسألة التحسين ومسألتها المزدوجة للدعم الآلي المتجه SVM‏ لهذا JUL‏ 
تعطى الحل الأمثل نفسه ودالة القرار. ويوضح الشكل ۲-۰ دالة القرار ومتجهات الدعم 
لهذه المسألة. دالة قرار الدعم SVM doch! JYI‏ هي نفسها كما في شبكة ال ANN‏ لنفس 
ا مسألة الموضحة في الشكل ۱۰-۵ في الفصل © 

العديد من الكتب وأوراق العمل في الدراسات العلمية تقدم موضوع الدعم الآلي التجه 
5 باستخدام مسألة التحسين المزدوجة في الصيغة ۳۷-۲ ولكن من دون مجموعة 
القيود: 

n 
>, o; YiyjxixX + yib- ه‎ = 0 i=1,..,n 
j=1 


A‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات لاستكشاف bli‏ التصنيف والتنبؤ 


الشکل (۲-۰) 
دالة القرار ومتجهات الدعم للمصنف الخطي الخاص بالدعم الآلي التجه SVM‏ في المثال ۱-۱ 


1[ - 1و( + 
0< 1 -ر + رد 


سح 1ح رد + رد 


كما يتضح من المثال ۱-7 من دون مجموعة القيود هذه. تصبح اللسألة الزدوجة: 
max, 9 (a, =z a4)? a (az ar (2+ 0+0 +0 + 04‏ 


بشرط أن: 
A4 = 0‏ + 0-0-0 - 
.1,2,3,4 = 1, 20 0 


إذا وضعنا a= ag>O‏ و0-و0 G2=‏ التي تحقق جميع القيودء تصبح دالة الهدف 
بعد ذلك مه + ره max‏ التي تكون غير محدودة وغير مقيدة لأن كل من 1» و04 يمكن 
أن تستمر في زيادة قيمها من دون حد. ومن ثم فإنه ينبغي استخدام الصيغة ۳۷-۲ للمسألة 
المزدوجة مع المجموعة الكاملة من القيود. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 1A1‏ 


0-1 صياغة 1 SVM) u doch! JI‏ مصنف are pa‏ قابلة للفصل بشکل 7۳7 
(SVM Formulation for a Linear Classifier and a Nonlinearly‏ 
Separable Problem):‏ 
إذا تم تطبيق مصنف خطي للدعم الآلي ای SEM‏ على Se‏ 
غير خطي (على سبيل JLL‏ دالة XOR‏ المنطقية التي تم توضيحها في الفصل 0( فمن 
لوت إن gy Y‏ تمتیف کل نقطة tly‏ مجموعة یات الية بشکل ع 
باستخدام الصتف الخطي للدعم الآلي التجه SVM‏ إن صياغة دعم آلي متجه SVM‏ 
ممصنف خطي في الصيغة ۲۶-۱ يمكن أن هتد لیشمل استضدام هامش بسیط عن 
طریق إدخال مجموعة من العلمات غير السالبة الاضافية #,... ,1غ :۰ في داخل 
صيغة الدعم الآلي اطتجه SVM‏ 
k‏ 


11 
1 
مدبهنه‎ 5 ۳ + 1 3 ga 
i=1 


بشرط أن: 
yi(w'x; + 9( < 1-6 i=1,..,n.‏ 
i=1,..,n,‏ ,0 <2 6 


حيث إن 0 < ) و[ < ؛ قيمتان محددتان سلفاً للحد من سوء تصنيف نقاط البيانات. 

5 إدخال Bi‏ في القيد في الصيغة رقم PAT‏ يسمح بسوء تصنيف نقطة بيانات ما بمقدار 

Bi‏ والتي تقيس مستوى الخطأ في التصنيف. إذا تم تصنيف نقطة بیانات ما بشكل صحیح 

تصبح Bi‏ صفراً إن تقليل قيمة COLE: By)‏ في دالة الهدف يكون بتقليل خطأ سوء 

التصنیف» في حين أن تقليل قيمة wl?‏ |)1/2( في دالة الهدف يكون بتقليل بعد VC‏ كما 
نوقش سابقاً. 


باستخدام طريقة مضاعف لاقرينجء نقوم بتحويل الصيغة ۳۸-۱ إلى: 


n k 
1 
miny, b gMaXaz0, و‎ L(w, b, B, a, Y) = 7 [۳۷2 + 6 ۳ a) 


1-1 


Tn a i‏ زا Na‏ اس سس لع وب AT TT TP pce ht TS A‏ اسار ب ات تو 
sar‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات لشاف bid‏ التصنيف والتنبؤ 


a Dy; (wx; +b) - 1 + Bi) - na re) 


1-1 


حیث Yi, FEl, h‏ هي مضاعفات لاقرينج غير السالبة. ويكون حل الصيغة ۳۹-۱ 
عند النقطة الواصلة بين قمتين ل b, P, ©, y)‏ ,)مك حیث يتم تقلیل به ,8 L(w, b,‏ 
y)‏ بالنسبة ل Bg bw‏ ويتم تعظيمها بالنسبة ل » ول عند النقطة التي يتم فيها تقليل 
Lew, b, , 0, y)‏ بالنسبة ل Bo bw‏ يكون لدينا: 


n n 
dL(w,b, 
(wb ameka) = Y- wD a; yix = 0 or w = 3EZ {€+-1) 
1-1 


i=1 


n 
aL(w, b, B, ay) 1 
a Din = 0 5 


i=1 


k-1 
نصا‎ £ ay) -fel a) ~m-y=0 i=1,.,n ifk>1 {t¥-1)} 
€ aj = Y= 0 ۲ << 0 1] ۲ < 1 


عندما تکون 1 < نرمز: 


n k-1 n 5 0 
6=pC (> 9 or > B; = 8 7 (ery) 


بمكتنا dole]‏ كتابة المعادلة EY-‏ لتكون: 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۱۸۳ 


الجزء الثاني 


به -8 = ۷ 
:0 ناح 


۲۷ < 0 or 
i=1,.. 


f- a; — 
C-a;-y,=0 or 

شرط کاروش-کوهن-توکر للحل الأمثل للصيغة ۳۹-۲ يعطي 

(€0-1) 


a, [y;(wx; + b) — 1 + 6) = 


باستخدام نقطة بيانات (Xi J)‏ والتي تُصنف بشكل صحيح بواسطة الدعم JYI‏ المتجه 
SVM‏ لدينا 8:=0 ولذلك يستند SW)‏ إلى المعادلة €0-1 


b= Yi <7 w' Xi, )61-1(‏ 
وهي ابلعادلة ۲۵-۱ نفسها. يتم استخدام املعادلتین 2۰-1 و۶1-1 لحساب w‏ ول على 
التوالی. إذا كانت © معروفة. نستخدم امسألة المزدوجة للصيغة ۳۹-۲ لتحدید © كما يلي 


عندما تكون / = » فان التعويض بد W‏ وف و في المعادلات ۶۰-۱ ۶-۱ EVV‏ 
على التواليء في الصيغة ۳۹-1 يعطى 


-7 oy Ly (wx; + 6) - 1 + -[,م‎ 2 vib 
=1 


maxazob(a) = lwi? + C 0 A) 
=} 


۳ (5 cpyyxjx + ١ -1+ 0 


1 n n n 
= > ردزدرنزرهیه‎ + C 2 &- ۳1 “i 
isi {21 j=1 


=1 j=1 
n n 
(EV-Y 


n n 
1 
- XC - a) 8; = > a; - 7 2 ریت‎ YiIYjXiXj 
i=1 i=1 i=1 j=1 
بشرط أن:‎ 


تلا 


استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوارزميات لاستكشاف bui‏ التصنيف والتنبق 


القيد GL » SC‏ من المعادلة 7-غ6: 
C-a;-y,=0 or C- a =y‏ 
ولأن 0 < (. يكون لدينا به < C‏ 


عندما تكون 1 < k‏ فان التعويض Wo‏ و6 ور في المعادلات ۶۰-1 ET Ty ٤٤-۹‏ على 
التوالي» في الصيغة 79-7 يعطى: 


1 زرا‎ 
MaxXae9,5h(a) = لاج‎ + 10 A) -F aly دس‎ +b) =~ 1+ 8] - Sak 
=1 i= 
n a n 
= yy 2:0 ۱/9 + e() a) -5 Qi ۳ 0 زندرلزره‎ Xt + : 1م‎ + 0 
i=1 1 i= =1 =1 
n n 1 n n geet 1 
- ) 6-a)B = ( ۵ - - Oty ندز لزرز‎ — ris (£A-1) 
2 2 3 3 ( م ا‎ 
بشرط أن:‎ 
11 
0, = 0 
i= 


استكشاف البیانات: نظريات وخوارزميات وأمثلة 1A0‏ 


“a‏ 0 الثاني 


وثعطی دالة القرار للمصنف ۳3 في المعادلة ۲۲-۹: 


y = sign(w'x + b) =1 ifw'x+b>1 
y= sign(w'x + b) = -1 ifw'x +b < =i 


أو املعادلة 7-£: 


n 
f(x) = sign(w'x + b) = sign 0 0 رب‎ + o) 


i=1 


تسهم متجهات الدعم والتي فقط بها 0<:» في حساب قيم b Ww‏ ودالة قرار المصنف 
الخطي. 


7-1 صياغة الدعم الآلي المتجه (SVM)‏ لمصنف غير خطي ومسألة قابلة للفصل 
(SVM Formulation for a Nonlinear Classifier and a Nonlinearly‏ 
Separable Problem):‏ 


يتم توسيع الهامش البسيط للدعم JU)‏ اللتجه SVM‏ للمسألة القابلة للفصل بشكل 
غير خطى من خلال تحويل × ذات الأبعاد م في clad‏ عدد أبعاده [ حيث هكن تصنیف × 
باستخدام المصنف الخطي. ويتم تمثيل عملية تحويل × كما يلي: 
x > p(x),‏ 


حيث إن: 


p(x) = (h(x), ... 1 )(( (€9-1) 


وتصبح صياغة الهامش البسيط للدعم الآلي التجه SVM‏ 


۱1 استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات لاستكشاف bul‏ ال التصنيف ف Selly‏ 


n n n 
i 
maxeolla) = Y يه‎ - 22١ > aay Pd’) ©- 
=1 ist j=1 
بشرط أن:‎ 
n 
> ay = 0 
i=1 
0: SC i=1,..,n 
a; = 0 i=1,..,n 
k> 7 عندما تكون‎ 
= 1 ب‎ §P/p-1 1 
mararost(a) = ل‎ o7) 2 وچ لمم رديه‎ OVV 
بشرط أن:‎ 
11 
> ay; = 0 
i=1 
a; = 6 i=1,..,n 
04 20 i= Lun 
وبدالة قرار:‎ 
n 
fw,p(x) = sign (> a; y Px) p(x) + 1 )0۲-( 
i=1 


وإذا عرفنا دالة کیرنل K (x, y)‏ على أنها: 


استكشاف البيانات: نظريات وخوارزميات وأمثلة AY‏ 


,(07) :م4 "(عد) ره ۳ 71 = K(x,y) = ۳9 (y)‏ 


(o-1) 


فان صياغة الهامش البسيط للدعم YY‏ المتجه SVM‏ في المعادلات من 0۰-7 وحتى 


oY-1‏ تصبح: 
n 1 n n‏ 
MaXgeol(a) = »: a; — 5). 2 aia YiYjK x) (06-7)‏ 
i=1 i=1 j=l‏ 
بشرط أن: 
n‏ 
a; 7: = 0‏ 3 
i=1‏ 
q SC 8 > 1, ...,2‏ 
1 ر ۰.۰ و Xi >0 i=‏ 
عندما تکون k> l‏ 
n n n / -1‏ 
yyy K (i, Xj) - p 6 (00-1)‏ روره maxaaosLta) = Yo = ZY‏ 
izi 12 22 p‏ 
بشرط أن: 
n‏ 
ay = 0‏ > 
ix‏ 
i=1‏ 0> 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوان زمیات لاستکشاف blii‏ اله التصنيف 6 Sula‏ 


وبدالة القرار: 


n 
fws) = sign 0 Qi ViK (xi x) + "i (01-1) 


i=1 


يتطلب الهامش البسيط للدعم الآلي المتجه SVM‏ في المعادلات ۵۰-1 وحتى 01-1 
تحويل () O‏ ثم حل الدعم الآلي المتجه SVM‏ في الفضاء المختار» في حين أن الهامش 
البسيط للدعم الآلي المتجه SVM‏ في المعادلات من 0۶-1 وحتى 01-1 يستخدم دالة كيرنل 
K (x, y)‏ بشكل مباشر. 

للعمل في الفضاء المختار باستخدام المعادلات ۵۰-1 وحتى ۵۲-۱ يتم تقديم بعض 
الأمثلة على دوال التحويل بلتجه املدخلات × في فضاء ذي بعد واحد على النحو التالي: 


g(x) = (1,x,...,x%) )0۷-۱( 
K(x, y) = PV PO) = 1 + xy + + (xy). 


M(x) = (sin x = sin(2x),--, = sin(ix), á) (0۸-7) 


«a 


1 
K(x, y) = p(x)'@(y) = + sin) sin(fy} = slog 
i=1 


x,y € [0,7]. 


sin(x + y/2) 
sin(x - y/2) 


وفيما يلي يتم إعطاء مثال على دالة تحويل طتجه مدخلات (x), x2)‏ = + في فضاء ذي 
بعدين: 


p(x) = (1, V2x,, V2x2, x?, x2, V2x,x2) (04-1) 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 1844 


<n. 
PLAS LEYS TT eR YTS REN S Tat ما‎ TES SEIN POPE GT SEY VEE NPS PRON TEA ay MEN امارج عشج ع عب امن‎ BUR ITE TITEL N 


K(x, y) = 9(x)'@(y) = (1 + xy)’. 


وفيما يلي يتم إعطاء مثال على دالة تحويل طتجه المدخلات (x1, ×2, X3)‏ = نا في فضاء 
GM‏ الأبعاد: 


(x) = (1, 2x, V2x2, /2 رود‎ x2, قاد‎ x3, V2x1 لارونة‎ 2 x3, 22X3) (1-3) 


K(x,y) = e p) = )1 + xy}. 


يمكن استخدام تحليل اللكون الرئيسي (principle component analysis)‏ الوارد 
في الفصل ۱۶ لاستخراج المكونات الرئيسية لبناء GK)‏ لکن» قد لا تعطي المكونات الرئيسة 
بالضرورة الخواص أو الصفات المناسبة التي تؤدي إلى مصنف خطي في الفضاء المختار. 


بالنسبة لدوال التحول في المعادلات من ۵۷-1 وحتى ۰1۰-1 من الأسهل حساب دالة 
کیرنل مباشرةٌ بدلاً من البدء بحساب دوال التحويل والعمل في الفضاء المختار OY‏ الدعم 
JYI‏ للتجه SVM‏ يمكن حله باستخدام دالة کیرنل مباشرة. وفيما يلي ترد بعض الأمثلة 


لدوال کیرنل: 
K(x, y) = (1 + xy)? (1-7‏ 
2ار 
K(,y) = e ae ary‏ 
K(x, y) = tanh(pxy — 9). (v-1)‏ 


تعطي دوال كيرنل في المعادلات من ۱۱-۱ وحتى 77-5 دالة قرار كثيرة الحدود 
(polynomial decision function)‏ كما هو مبين في الشكل ۳-۰ ودالة القاعدة 
الدائرية لقوسشيان (Gaussian Radial Basis function)‏ كما هو مبین في الشكل ۶-۱ 
والشبكة العصبية الصناعية ذات التغذية الأمامية الأحادية الطبقة (perception)‏ متعددة 
السنوات لبعض قيم م و 0. 
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خوار زمیات لاستکشاف blej‏ التصنيف والتنبؤ 


الشکل (-۳) 
Uo‏ قرار كثيرة الحدود في فضاه ثناني الأبعاد 
¥2 


غالباً ما يتم استخدام عملية الجمع (addition)‏ وعملية الضرب ال ممتد (tensor‏ 
Product)‏ لدوال كيرنل ebd‏ دوال كيرنل JST‏ تعقيداً على النحو التالي: 


K(x,y) = K(x, y) (1-1) 
i 


K(x, y) = pi K;(x, y). (10-3) 
1 
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الجزه 0 الثاني 


الشكل (6-5) 
دالة قاعدة دائرية لقوسشیان في فضاء ثنائي الأبعاد 


۷-۲ طرق استخدام الدعم الآلي المتجه (SVM)‏ هسائل التصنيف متعددة LB)‏ 
(Methods of Using SVM for Multi-Class Classification Problems):‏ 
الدعم JYI‏ املتجه SVM‏ الموضح في الأجزاء السابقة هو لمصنف ثنائي يتعامل مع فئتين 
مستهد فتين. بالنسبة إلى مسألة تصنيف بأكثر من فنتین مستهدفتین, هناك العديد من 
الأساليب التي يمكن استخدامها لبناء مصنف Gls‏ أولاً ثم الجمع بين الصنفات الثنائية 
للتعامل مع قئات مستهدفة متعددة. لنفترض أن الفئات المستهدفة هي Ti, T2 ae, Ts‏ 
في الأسلوب واحد مقابل واحد (One - Versus - One)‏ يتم slu‏ مصنف Gls‏ لكل زوج 
من الفثات املستهدفة Ty‏ مقابل «Tj‏ بحیث FA]‏ من بين OLA‏ الستهدفة التي تنتجها 
جمیع ابلصنفات الثنائية لتجه مدخلات معین, فانه يتم أخذ الفثة المستهدفة المسيطرة كفئة 
مستهدفة نهائية dock‏ المدخلات. في الأسلوب واحد مقابل الكل (One - Versus — all)‏ 
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خوارزمیات ل سس bul‏ التصنيف ؛ والتنيق 


22011111111 
ا مستهدفة الأخرى التي يتم اعتبارها معا فثة مستهدفة أخرى (NOT- Ti)‏ إذا كانت جميع 
Balai ec Cran ath ntsc Ae gn py UA Cla‏ 
ثناني واحد يعطي Ti‏ وجميع المصنفات الأخرى تعطي فئات مستهدفة ليست ;7 بحيث أن 
رع # فان الفئة المستهدفة النهائية لمتجه المدخلات تكون -Ti‏ لكن إذا كانت جميع ا مصنفات 
الثنائية ينتج عنها حصيلة تصنيف غير متسقة doth‏ مدخلات معين. ails‏ مق اسب ates‏ 
الفئة المستهدفة النهائية doch‏ المدخلات. على سبيل JEL‏ قد يكون هناك فثتان 
مستهدفتان Ti‏ ور7؛ بحيث i‏ ۶ ثر في حصيلة التصنيف. وأنه من الصعب تحديد ما إذا 
كانت الفثة المستهدفة النهائية هي Ti‏ أو 1. فإن أسلوب ترميز مخرجات تصحيح الخطأ 
al, (Error - Correction Output Coding Method)‏ رمزاً ثنائياً فريداً walk,‏ 
من خوينتين أو بت (binary bits) GLI‏ لكل فئة مستهدفة: ثم تبني مصنفاً ثنائياً لكل 
خوينة أو بت {lS‏ واحد. ثم تأخذ الفئة المستهدفة ذات السلسة من البتات الثنائية الأقرب 
إلى السلسلة الناتجة من البتات الثنائية من جميع المصنفات الثنائية. على الرغم من U3‏ 
لا يوجد طريقة مباشرة واضحة لتوليد رمز GD‏ فريد لكل فئة مستهدفة بحيث تؤدي 
مجموعة الرموز الثنائية الناتجة لجميع GLA!‏ المستهدفة إلى الحد الأدنى من الخطأ في 

التصنيف لسجلات البيانات التدريبية أو الاستكشافية. 


(SVM) التجه‎ JYI والدعم‎ (ANN) مقارنة بين الشبكة العصبية الصناعية‎ 8-١ 
(Comparison of ANN and SYM): 

علمنا أن ola‏ الشبكة العصبية الصناعية ANN‏ كما هو موضح في الفصل 0 يتطلب 
البحث عن الأوزان والتحيزات لشبكة ANNA‏ نحو الحد Gol‏ من خطأ تصنيف نقاط 
البيانات التدريبية» على الرغم من أن عملية البحث قد تنتهي بقاع محلي (local‏ 
minimum)‏ يتم حل الدعم SUI‏ المتجه SVM‏ للحصول على الحل الأمثل على مستوى 
شامل. ولكن, بالنسبة للمصئف غير الخطي والمسألة القابلة للفصل بشكل غير خطيء (le‏ 
ما يكون غير مؤكد ما هي دالة كيرنل الأصح لتحويل المسألة غير الخطية إلى مسألة قابلة 
للفصل خطياً GY‏ دالة التصنيف المناسبة غير معروفة. دون وجود دالة كيرنل مناسبة» فقد 
ينتهي بنا الأمر إلى استخدام دالة كيرنل غير مناسبة» ومن ثم الوصول إلى حل بخطأ تصنيفي 
أكبر من ذلك الناتج عن الحل الأمثل الشامل عند استخدام دالة كيرنل مناسبة. ومن ثم 
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الججزء ٠‏ الثاني 


فاستخدام aout‏ الك ا ابلتجه SVM‏ لصنف غير pr‏ 73 قابلة للفصل بشكل غير 
خطي يستلزم البحث عن دالة كيرنل جيدة لتصنيف البيانات التدريبية من خلال التجربة 
والخطأء تماماً كما أن تعلم شبكة عصبية صناعية ANN‏ يستلزم تحديد تركيب مناسب 
لشبكة ANNI‏ (أي عدد الوحدات الخفية) من خلال التجربة والخطأ. badeg‏ على ذلك 


فإن حساب: 


n n 
2 2 AiO; 717/23 


i=1 j= 


ترم 


أو 


3 ai Yiyj K(X: Xj) 


i=1 j=1 


في دالة الهدف للدعم الآلي ا متجه SVM‏ بلجموعة كبيرة من البيانات التدريبية (على سبيل 
امثال» مجموعة تحتوي على ۵۰,۰۰۰ سجل بيانات تدريب) يتطلب حساب ?10 × 2.5 
حد ومساحة ذاكرة كبيرة. ومن ثم يؤدي إلى تكلفة حاسوبية (computational cost)‏ 
كبيرة. يطبق أوسونا وآخرون )1997 (Osuna et al.,‏ الدعم SYI‏ املتجه SVM‏ ساألة 
كشف الوجه (Face Detection Problem)‏ ويبين أن أداء تصنيف الدعم الآلي ابلتجه 
SVM‏ يظهر قريباً من أداء التصنيف باستخدام شبكة ال ANN‏ وابلطور من قبل كل من 
سونخ وبوجيو )1998 (Sung and Poggio,‏ 


4-1 البرمجيات والتطبيقات :(Software and Applications)‏ 
يدعم برنامج (www.mathworks.com) MATLAB®‏ الدعم JYI‏ ابلتجه SVM‏ 
يمكن استخدام شريط الأدوات ایلسمی (Optimization)‏ في برنامج MATLAB®‏ لحل 
أي مشكلة تحسين باستخدام الدعم الآلي المتجه SVM‏ قام أوسونا وآخرون (Osuna et‏ 
al., 1997)‏ بتطبيق الدعم JU‏ المتجه SVM‏ لمسألة كشف الوجه. هناك العديد من 


ال pa il A SO‏ 
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التطبیقات 7 ی 7۳ ۳ اممتجه SVM‏ مذكورة في اطراجع العلمية www.support-)‏ 
.(vector-machines.org‏ 


(Exercises) التمارين‎ 

3-1 قم بتحديد الصنف الخطي للدعم الآلي المتجه SVM‏ للدالة OR‏ في الجدول ۲-۵ 
باستخدام abluo‏ الدعم Jv‏ املتجه Lita SVM‏ خطي في الصيغتين ۲۶-۱ و19-7. 

۲-۱ قم بتحدید الصتف الخطي للدعم JY!‏ املتجه SVM‏ للدالة NOT‏ باستخدام صياغة 
الدعم الآلي التجه SVM‏ لصنف خطي ‏ الصيغتين ۲۶-۱ و-۲۹. وترد مجموعة 
البيانات التدرييية لدالة Y= NOT NOT‏ فيما يلي: 


مجموعة البيانات التدريبية: 


۳-1 قم بتحديد المصئف الخطي للدعم Jv!‏ املتجه SVM‏ لدالة تصنیف مع البيانات 
التدريبية التاليةء وذلك باستخدام صياغة الدعم الالي املتجه SVM‏ لصنف خطي في 
الصيغتين ۲۶-۱ ۰۲۹-۰19 
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الجزء الثاني 


y X3 X: x 
0 -1 -1 -1 
0 1 -1 -1 
0 -1 1 -1 
1 1 1 -1 
0 -1 -1 1 
1 1 -1 1 
1 -1 1 1 
1 1 1 1 
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خوارزمیات یه ی التصتيف والتنيق 


لاد مصئف koa‏ - مجاور والتعنقد ايلراقب 


k-Nearest Neighbor Classifier and Supervised Clustering 


يستعرض هذا الفصل طريقتين للتصنیف» وهما: مصنف أقرب -k‏ مجاور (k-nearst‏ 
neighbor classifier)‏ والتعنقد اللراقب (supervised clustering)‏ والذي يتضمن 
مصنف أقرب -k‏ مجاور كجزء من خوارزميته. كما يستعرض هذا الفصل بعض التطبيقات 
المتعلقة بالتعنقد المراقب مع المراجع الخاصة به. 


۷ مصنف أقرب /-مجاور :(k-Nearest Neighbor Classifier)‏ 
بالنسبة لنقطة أو سجل بیانات Xi‏ بعدد p‏ من متغيرات الخاصية (attribute‏ 


:variables) 
g 
2 ip 


ومتغير هدف y sels (target variable)‏ الذي يحتاج إلى أن يتم تحديد قيمتة 
dus gill‏ فإن مصتف أقرب -k‏ مجاور يحدد Yal‏ موقع عدد # من نقاط أو سجلات البيانات 
الأكثر تشابهاً ل (أوالأقرب إلى) نقطة البيانات هذه كأقرب )- مجاور لنقطة البیانات» ثم 
يقوم المصنف باستخدام الفنات الهدف (target classes)‏ للمجاورين الأقرب والتي 
عددها k‏ لتحديد الفئة الهدف لنقطة البيانات. لتحديد أقرب -k‏ مجاور لنقطة البیانات» 
نحتاج إلى استخدام مقياس للتشابه أو الاختلاف بين نقاط البيانات. يوجد العديد من 
مقاييس التشابه أو الاختلاف. ها في ذلك المسافة الإقليدية (Euclidean distance)‏ 
ومسافة مينكوسكي (Minkowski distance)‏ ومسافة هامینخ (Hamming‏ 
distance)‏ ومعامل ارتباط بيرسون (Pearson's correlation coefficient)‏ وتشابه 
جيب التمام (جتا) (Cosine similarity)‏ والتي سيتم شرحها في هذا الجزء. 
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2 Gu = PAN REJA (\-¥) 


f=1 


المسافة الإقليدية هي مقياس الاختلاف بين نقطتي بيانات :× ورد كلما كانت قيمة 
المسافة الإقليدية ST‏ كان الاختلاف بين نقطتي البيانات SÍ‏ ومن ثم متباعدتان إحداهما 
عن الأخرى بشكل أكبر ومنفصلتان أكثر في فضاء بيانات عدد أبعاده Pp‏ 


يتم تعريف مسافة مينكوسي (Minkowski distance)‏ على أنها: 


2 1/r 


d(x;,x;) = > bu ایند‎ | i>i om 
<1 


مسافة مينكوسكي هي Lad‏ مقیاس للاختلاف. إذا وضعنا 2  <‏ فان dad‏ مسافة 
مينكوسكي تعطي نفس قيمة المسافة الاقليدية. إذا وضعنا 1  -‏ و يأخذ کل متغير من 
متغيرات الخاصية dad‏ ثنائية» فان dod‏ مسافة مينكوسكي تعطي نفس dod‏ مسافة 
هامينغ التي تقوم بتعداد عدد الخوينات أو البتات (Dits)‏ المختلفة بين سلسلتين ثنائيتين 

(two binary strings) 
عندما يتم استخدام مقياس مسافة مينكوسكي» قد يكون لتغيرات الخاصية المختلفة‎ 
مختلفة» وتجلب‎ (ranges) ونطاقات‎ (variances) وتباينات‎ (means) متوسطات‎ 
القيم الخاصة بمتغير من‎ JELI مستويات مختلفة في عملية حساب اطسافة. على سبيل‎ 
متغيرات الخاصية. :نت قد تتراوح من 0 إلى 10ء في حين أن قيم متغير خاصية آخرء يك قد‎ 
تعطي الفرق المطلق 7 في حين أن القيمتين‎ By 1 تتراوح من 1-0. قيمتان للمتغير :۵ ولتكن‎ 
من القيمتين 7 و0.7 في‎ JS ل وه 0.1 0.85 تعطي الفرق المطلق 0.7. عندما نُستخدم‎ 
۲-۷ جمع الفروقات بين نقطتي بيانات على مستوى جميع متغيرات الخاصية في المعادلة‎ 
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خولرزمیات وی نم ا ' والتنيق 


يكون الفرق ITE‏ دي ولق لل ملا لطة TTT‏ 
د ومن ثم قد يكون من الضروري القيام بالتطبيع (normalization)‏ قبل استخدام 
مقياس مسافة مينكوسكي. ويمكن استخدام عدة أساليب للتطبيع. وتستخدم إحدى أساليب 
التطبيع الصيغة التالية لتطبيع المتغير × والحصول على التغیر الأطبع 2 متوسط قيمته صفر 
وتباين قيمته 1: 


F‏ - بر 
1 2 
5 


(v-v) 


حيث × و5 هما متوسط العينة والانحراف المعياري للعينة الخاصة بالمتغير x‏ على التوالي. 
طريقة أخرى للتطبيع تستخدم الصيغة التالية لتطبيع المتغير × وإنتاج المتغير المطبع Z‏ 


مع القیم التي تتراوح من ]0,1[: 
x -x‏ 
7-ع) نت تج 


Xmax ~ *min 


يتم تنفيذ التطبيع من خلال تطبيق نفس طريقة 4 التطبيع لجميع متغيرات الخاصية. 
وئستخدم متغيرات الخاصية اططبعة لحساب مسافة مينكوسي. 
يعرف ما يلي معامل الارتباط بیرسون م: 


Sxixy 


Pxix; = Sx, Sa )0-۷( 


حيث زنرک Sxig‏ و Sxi‏ تمثل التغایر (covariance)‏ المقدر ل Xi‏ ورك حيث الانحراف 
المعياري المقدر ل نك والانحراف المعياري المقدرل Xj‏ على التوالی» ويتم حسابها باستخدام 
dus‏ من نقاط البيانات 7 كما يلي: 
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الجن a‏ الثاني 


2 (xı - روت(‎ - ¥) av) 


)۷-۷( 
(A-V) 
1 p 
x, = 93 Xi )٩-۷( 
t=1 
1 p 
: == ۱۰-۷ 
x 93 Xp. )۱۰-۷( 
t=1 


یقح معامل ارتباط بيرسون في النطاق [1,1-/ وهو مقياس للتشابه بين نقطتي البيانات 
۵ ويد كلما كبرت قيمة معامل الارتباط برسون, زاد الارتباط أو التمائل بين أو التشابه بين 
نقطتي البيانات ويرد وصف أكثر تفصيلاً dolet‏ ارتباط بيرسون في الفصل ۱۶. 

ويعد مقياس تشابه جيب التمام (جتا) نقطتي البيانات :د ود على أنهما متجهان في 
فضاء عدد أبعاده م ويستخدم جيب تام الزاوية ۵ بين المتجهين لقياس التشابه بين نقطتي 
البيانات على النحو التالي: 


O Xix 


illi 
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cos(0) = (\\-¥) 


خوارزمیاتٍ الكت a td]‏ التصنیف والتنبؤ 


حيث ااند || 55 تمثل Ugh‏ ابلتجهین» ویتم حسابها على التحو التالي: 


Ill = ۳ ند‎ (1-۷) 
ae هن‎ : 
lll = 5 + ۰-۰ + x7, (1۳-۷) 


عندما 0 = 0 ۰ فهذا یعنی» أن التجهین الاثنين يشيران إلى نفس الاتجاه 605)0(<1. 
عندما 9-180 فهذ! «ging‏ 3 ا لمتجهين الائنین پشبران إلى اتجاهين متعاکسین» COS(D=‏ 
Lae .-1‏ "0-90 أو 270° فهذا يعني» أن المتجهين الائنین متعامدين. 0-(6050)0. ومن 
ثم» مثل معامل ارتباط guy‏ فإن مقياس تشابه جيب التمام (جتا) يعطي قيمة في النطاق 
[1,1-]. وهو مقیاس التشابه بين نقطتي البیانات بت وزد كلما كانت قيمة مقیاس تشابه 
جيب التمام (جتا) ST‏ كانت نقطتا البیانات متشابهتین. ويرد وصف أكثر تفصیلاً لحساب 
الزاوية بين متجهي بیانات في الفصل NE‏ 

لتصنیف نقطة بیانات x‏ يتم حساب مقدار تشابه نقطة البیانات × لكل من نقاط 
البیانات 7 في مجموعة البیانات التدريبية باستخدام مقیاس محدد للتشابه أو الاختلاف. من 
بين نقاط البيانات 7۶ في مجموعة البيانات التدريبيةء فإن نقاط البيانات k‏ والتي تکون أكثر 
تشابهاً لنقطة البيانات × يتم اعتبارها أقرب -k‏ مجاور ل « وتُؤْخذ فئة الهدف المهيمنة 
والخاصة بأقرب -k‏ مجاور كفئة الهدف ل × وبعبارة آخری, فإن مصنف أقرب -k‏ مجاور 
يستخدم قاعدة تصويت الأغلبية لتحديد الفئة الهدف ل x‏ على سبيل JEL‏ افترض أنه 
لتصنيف نقطة البيانات × يكون لدينا ما يلي: 


© يتم وضع / عند 3. 
ish o‏ المتغير الهدف واحد من فثتي الهدف: Bg A‏ 
© يكون لائنین من أقرب ۳- مجاور الفئة الهدف A‏ 


يقوم مصنف أقرب ۳- مجاور بإسناد القيمة A‏ كفئة هدف لنقطة البيانات × 
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:)۱-۷( Jb) 
استخدام مصنف أقرب ۳- مجاورء ومقياس المسافة الإقليدية للاختلاف لتصنيف ما إذا‎ 
كان نظام التصنيع متعطل باستخدام قيم متغيرات الجودة التسعة. حيث تعطي مجموعة‎ 
جزءاً من مجموعة البيانات في الجدول ۶-۱ وتتضمن‎ ١ -۷ البیانات التدريبية في الجدول‎ 
تسع حالات أعطال منفردة» وحالة واحدة بدون أعطال في نظام التصنيع. بالنسبة لسجل‎ 
(xu, هناك تسعة متغيرات من متغيرات الخاصية لجودة وحدات انتج‎ (i) البيانات رقم‎ 
حالات الاختبار لبعض‎ ۲ -V لعطل النظام. يعطي الجدول‎ pi ومتغير هدف واحد‎ e. Xi9) 

الحالات متعددة الأعطال. 

لنقطة البيانات الأولى في مجموعة البيانات الاختيارية x=(1,1,0,1,1,0,1,1,1)‏ 
وكانت المسافات الإقليدية لنقطة البيانات هذه وصولاً إلى نقاط البيانات العشرة في مجموعة 
ألبيانات التدريبية هي: 1.73 2 2.45 2.24 2 2.65 2.45 2.45 2.45 2.65 على 
التوالي. على سبيل المثالء المسافة الأقليدية بين x‏ ونقطة البيانات الأولى في مجموعة البيانات 
التدريبية X=(1,0,0,0,1,0,1,0,1)‏ هي: 


5 la- 1)? + (0 - 1)? + )0- 0)2 + 0- 1(2+)1-1(2+)0-0(2 _ چم‎ _ 
dixx) = +(1— 1)2 + (0-1)? + )1- 1(۶ - ۷3 2 3 


أقرب ۳-مجاورات ل ى هي x59 X2 XI‏ في مجموعة البيانات التدريبية التي تأخذ 
جميعها الفثة الهدف 1 مما يعني نظاماً معطلاً. ومن ثم. يتم إسناد الفئة الهدف 1 لنقطة 
البيانات الأولى في مجموعة البيانات الاختيارية. حيث إنه في مجموعة البيانات الاختبارية, 
هناك نقطة بيانات واحدة فقط بالفئة الهدف صفرء فان أقرب ۳-مجاور لكل نقطة بيانات 
في مجموعة البيانات الاختيارية. يكون لها على الأقل نقطتا البيانات التي فئتها الهدف ۰1 
مما ينتج عنه قيمه للفئة الهدف تساوى 1 لكل نقطة البيانات في مجموعة البيانات 
الاختيارية. إذا حاولنا تصنيف نقطة البيانات رقم 10 بفئة هدف حقيقية تساوى صفراً في 
مجموعة البيانات التدريبية» فان أقرب ۳-مجاور لهذه النقطة هي نقطة البيانات نفسهاء 
بالإضافة لنقطتي بيانات آخریین ytd‏ الهدف تساوى1ء مما يجعل فئة الهدف تساوى 1 
لنقطة البيانات رقم 10 في مجموعة البيانات التدريبية» والذي يختلف عن الفئة الهدف 
الحقيقية تنقطة البيانات هذه. 
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الجدول (۱-۷) 
مجموعة البيانات التدريبية الخاصة بالكشف عن الأعطال بنظام التصنيع 


متغيرات الخاصية - Attribute Variables‏ متغير الهدف 


Target Variable 
عطل النظام‎ 
(System Fault), y; 


i رقم الحالة‎ 
Instance f 
(الآلة العطلة‎ 
(Faulty Machine 
1 (M1) 
2(M2) 
3(M3) 
4(M4) 
5(MS5) 
6(M6) 
7(M7) 
8(M8) 
9(M9) 
1Mnone} 


Quality of Parts - جودة وحدات النتج‎ 


meme it 
eco---co-o =8 
coooeoo--- off 
باب وه و و ه و هو ه ه ه‎ 


ان تب = داه هن دو cop‏ 
oo‏ سا و و cocoon-‏ 
تب و هو وه سا و و و ه ه 
oo‏ سا و وه ه و وه و هه 
o‏ تب و و و وه وه ه و ه 
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الجدول )¥-¥( 
مجموعة البيانات الاختيارية الخاصة بالكشف عن الأعطال بنظام التصنيع ونتائج التصنيف في الأمثلة 
۱-۷ و۲-۷ 


SYN A ردان‎ SUL CER OG Rat Se OE ای كعد م‎ OIRO LILI ST :انعلط‎ 


رقم الحالة i‏ متغيرات الخاصية - Attribute Variables‏ متغير الهدف- Target‏ 


Variable (Quality of Parts - (جودة وحدات المنتج‎ Instance į 
(الآلة املعطلة (أعطال النظام‎ 
(System Faults y; Faulty 
القيمة القيمة‎ (Machine 
الفعلية المصنفة‎ 


(Classified (True 
Value Value 


ta 


عم 
— 
— 


1 (M1,M2) 
0 2(M2,M3) 
1 3(M1,M3) 
1 4(M1,M4) 
1 5(M1,M6) 
0 6(M2,M6) 
0 7(M2,M5) 
0 8(M3,MS5) 
0 9(M4,M7) 
0 2 10(M5,M8) 
0 ۰ ۰ 11(M3,M9) 
1 12(M1,M8) 
1 13(M1,M2,M3) 
0 14(M2,M3,M5) 
0 15(M2,M3,M9) 
1 16(M1,M6,M8) 


© = = ني تت 0© © = Or © GG‏ - نم ندا و 


کاس ست سن OH KH‏ ن ن يم ننن ان امم 
© — = ما = نان = u wm i O wm DO O‏ 


سے بص نر نسل نس نسم نل س نمر نے سم نمر ر س نا 
مس نس سے مل نس انم ا نسل یت ت سے نا دنم ل س ا 
O‏ س = Guu vw Om Om =æ Gg‏ - 
سراق چ © Ou = = oso ec ofr KK‏ 


ولکن, إذا وضعنا 76-7 لهذا ULL!‏ فإن مصنف أقرب -١‏ مجاور بسند فئة الهدف 
الصحيحة لكل نقطة بيانات في مجموعة البيانات التدريبية لأن كل نقطة بيانات في مجموعة 
البيانات التدريبية لها نفسها كأقرب -١‏ مجاور ويسند أقرب -١‏ مجاور أيضاً فئة الهدف 
الصحيحة ١‏ لكل نقطة البيانات في مجموعة البيانات الاختيارية لأن نقطة البيانات رقم 10 
في مجموعة البيانات التدريبية هي نقطة البيانات الوحيدة ذات الفئة الهدف صفرء 
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والمتغيرات الخاصية الا چا د Pe‏ مما يجعل نقطة البيانات رقم 10 
لا هكن أن تكون الأقرب -١‏ مجاور إلى ر نقطة بيانات في مجموعة البيانات الاختيارية. 

تشير نتائج التصنيف في JEL‏ ۱-۷ والخاصة عندما 3/, بالمقارنة مع نتائج التصنيف 
ل k=l‏ إلا أن اختيار قيمة 1 يلعب دوراً هاماً في تحديد الفئة الهدف لنقطة البيانات. في 
المثال ۱-۷ k=1‏ تعطى أداء أفضل من تصنيف K=F‏ وفي بعض الأمثلة أو التطبيقات 
الأخرىء إذا كانت k‏ صغيرة dae‏ على سبيل اللثالء 7 فان أقرب ۱- مجاور لنقطة البيانات 
× قد يكون نقطة بيانات شاذة أو القيمة التي Gb‏ من ضوضاء (noise)‏ في مجموعة 
البيانات التدريبية. بجعل × تأخذ الفئة الهدف لهذا ابلجاور. لا بعطي المخرجات التي تعکس 
bla‏ البيانات في مجموعة البيانات. إذا كانت ۸ كبير die‏ قد تشمل مجموعة أقرب -k‏ 
مجاور نقاط بيانات تقع بعيداً والتي ليست حتى مشابهة ل × إن السماح لنقاط بيانات 
مختلفة باختيار فئة الهدف ل × على أنها مجاورات لها يبدو أمراً غير عقلاني. 

طريقة التعنقد المراقب في الجزء التالي تستخدم مصتف أقرب -k‏ مجاور عن طريق 
تحديد عناقيد (Clusters)‏ بيانات مماثلة Vol‏ ثم استخدام بيانات العناقيد هذه لتصنيف 
نقطة بيانات. وحيث إن بيانات العناقيد تعطي صورة أكثر تماسكاً عن مجموعة البيانات 
التدريبية من نقاط البيانات الفردية, فإن تصنيف نقطة بيانات ما على أساس عناقيد 
البيانات المجاورة لها وفئات الهدف الخاصة بها من المتوقع أن يعطي أداء تصنيفي أكثر قوة 
من طريقة مصنف أقرب #- مجاورة. التي تعتمد على نقاط البيانات الفردية. 


۲-۷ التعنقد المراقب (Supervised Clustering)‏ 
لقد تم تطوير خوارزمية التعنقد المراقبء وتم تطبيقها للكشف عن الهجمات عبر 
الإنترنت (cyber attacks)‏ لتصنيف أنشطة طبيعة البيانات الرصودة والخاصة بالحاسوب 
والشبكات إلى وحدة من فئات الهدف: هجمات وأنشطة استخدام عادية (Li and Ye,‏ 
Ye, 2008, Ye and Li, 2002)‏ ;2006 ,2005 ,2002. يمكن أن يتم تطبيق الخوارزمية 

أيضاً على مشاكل تصنیف أخرى. 

للكشف عن الهجمات عبر الإنترنت» تحتوي البيانات التدريبية على كميات كبيرة من 
البيانات الحاسوبية وبيانات الشبكات لتعلم bul‏ بيانات خاصة بالهجمات (attacks)‏ 
وأنشطة الاستخدام العادي (normal use activities)‏ بالإضافة إلى ذلك. يتم إضافة 
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المزيد من البیانات التدريبية مع مرور الوقت لتحدیث 7 البيانات الخاصة بالهجمات 
وأنشطة الاستخدام العادي. ومن ثم. یتطلب الأمر خوارزمية تعلم قابلة للتطوير المتزايد 
والقیاس. بحیث يتم Ble‏ على أنماط البیانات الخاصة بالهجمات وأنشطة الاستخدام 
العادي» وتحديثها تدريجياً مع إضافة كل بيانات مرصودة جديدة بدلا من معالجة كافة 
البياتات المرصودة في مجموعة البيانات التدريبية دفعة واحدةٌ. وقد تم تطوير خوارزمية 
التعنقد المراقب باعتبارها خوارزمية تعلم قابلة للتطوير المتزايد والقياس لتعلم وتحديث 
bla‏ البيانات لغرض التصنيف. 


خلال عملية التدریب» فإن خوارزمية التعنقد المراقب تأخذ blä‏ البيانات في مجموعة 
البیانات التدريبية واحدة تلو الأخرى لتجميعها في عناقيد من نقاط البيانات المتشابهة على 
أساس قيم متغيرات الخاصية, وقيم متغير الهدف الخاصة بها. يتم البدء بأول نقطة بيانات 
في مجموعة البيانات التدريبية. وجعل العنقود الأول يحتوى على نقطة البيانات هذه, ومن 
ثم أخذ فئة الهدف الخاصة بنقطة البيانات كفئة هدف اعتقود لبيانات. وعند أخذ نقطة 
البيانات الثانية في مجموعة البيانات التدريبيةء نريد أن نجعل نقطة البيانات هذه تنضم 
إلى العنقود الأقرب الذي فئة هدفه نفس فثة هدف نقطة البيانات هذه. في خوارزمية 
التعنقد الراقب نستخدم اللتجه المتوسط (mean vector)‏ لجميع نقاط البيانات في 
عنقود بيانات do‏ على أنه المركز المتوسط (centroid)‏ لعنقود البيانات الذي يتم استخدامه 
لتمثيل موقع عنقود البیانات. وحساب مسافة نقطة البيانات من هذا العنقود. إن عملية 
التعنقد (clustering)‏ لا تستند فقط إلى قيم متغيرات الخاصية لقياس المسافة من نقطة 
البيانات إلى عنقود البيانات» ولكن أيضاً على الفئات الهدف لنقطة البيانات وعنقود البيانات 
لجعل نقطة البيانات تنضم إلى عنقود البيانات الذي له الفئة الهدف نفسه. جميع نقاط 
البيانات في نفس العنقود يكون لها نفس الفئة الهدفء والتي هي أيضاً الفئة الهدف 
للعنقود. ولأن الخوارزمية تستخدم الفئة الهدف لتوجيه أو للإشراف على تعنقد نقاط 
البیانات» فهي تُسمى خوارزمية التعنقد ابلراقب (supervised clustering)‏ 

لنفترض أن المسافة كبيرة من نقطة البيانات الأولى ونقطة البيانات الثانية في مجموعة 
البيانات التدريبيةء ولكن نقطة البيانات الثانية لها نفس الفئة الهدف الخاصة بالعنقود 
الأول الذي يحتوي على نقطة البيانات الأولىء فإنه لا يزال على نقطة البيانات الثانية أن 
تنضم لهذا العنقود. لأنه هو عنقود البيانات الوحيد حتى الآن الذي لديه نفس الفئة الهدف. 
ومن ثم. فإن نتائج التعنقد تعتمد على الترتيب الذي تؤخذ به نقاط البيانات من مجموعة 
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البیانات التدريبية. مما يتسبب في مشكلة 5 عليها التحيز المحلي لترتيب اطدخلات 
(local bias of the nt order)‏ لمعالجة هذه المشكلة. فان خوارزمية التعنقد 
المراقب تقوم بتجهيز عنقود بيانات مبدني لكل فئة هدف. ولكل id‏ هدفء يتم أولاً 
احتساب المركز المتوسط لجميع نقاط البيانات ذات الفئة الهدف في مجموعة البيانات 
التدريبية باستخدام المتجه المتوسط لنقاط البيانات. ثم يتم تجهيز عنقود Gare‏ للفثة 
الهدف ليكون فيه المتجه المتوسط هو المركز المتوسط للعنقود والفئة الهدف مما يعني 
الخروج بفئة هدف مختلفة عن أي فئة من فثات الهدف لنقاط البيانات في مجموعة 
البيانات التدريبية. على سبيل امثال» إذا كان لدینا فثتان من الفئات الهدف: Tr‏ 729 في 
البیانات التدريبية. يكون هناك عنقودان مبدئیان. العنقود المبدي الأول يكون له المتجه 
bugil!‏ لنقاط البيانات :1 كمركز متوسط (centroid)‏ العنقود اطبدني الآخر يكون له 
المتجه التوسط لنقاط البيانات ل 72 كمركز متوسط. يتم إسناد كل من العنقودين المبدئيين 
لفئة هدفه على سبيل المثالء T3‏ والذي يختلف عن Ti‏ و12. 

ولأن عناقيد البيانات الأولية هذه لا تحتوي على نقاط بيانات فردية. فإنه یطلق عليها 
العناقيد الوهمية (dummy clusters)‏ جميع العناقيد الوهمية تحتوى على فثة هدف 
تختلف عن أي فتة من الفئات الهدف في مجموعة البيانات التدريبية. تتطلب خوارزمية 
التعنقد المراقب من كل نقطة بيانات أن تقوم بتشكيل عنقود خاص بهاء إذا ما كان عنقود 
البیانات الأقرب هو عنقود وهمي. مع العناقيد الوهمية» فنقطة البيانات الأولى من 
مجموعة البیانات التدرييية» تشکل عنقوداً جدیداً لأنه لا بوجد الا عناقيد وهمية فقط في 
البداية, والعنقود الأقرب إلى نقطة البیانات هذه هو عنقود وهمي. 

إذا كانت نقطة البیانات الثانية لها نفس الفئة الهدف لنقطة البیانات الأولى» ولکنها 
تقح بعيداً عن نقطة البیانات الأولى» فمن الأرجح أن العنقود الوهمي یکون آقرب عنقود 
لنقطة البیانات الثانية من عنقود البیانات الذي يحتوي على نقطة البیانات الأولى. وهذا 
يجعل نقطة البیانات الثانية تشکل عنقوداً خاص بهاء بدلاً من الانضمام إلى العنقود ابلحتوي 
على نقطة البیانات الأولى» ومن ثم فان هذا يعالج مشكلة التحیز الحلي بسبب ترتیب 
ایلدخلات الخاصة بنقاط البیانات التدريبية. 

خلال مرحلة الاختبار تقوم خوارزمية التعنقد الراقب بتطبيق مصتف آقرب -k‏ مجاور 
على عناقید البیانات التي تم الحصول علیها من المرحلة التدريبية gl)‏ الاستکشافیة) من 
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خلال تحديد -k m‏ عنقود مجاور لنقطة البیانات اطراد تصنیفهاء ومن ثم جعل ۳۳ 
عنقود بيانات تصوت بالأغلبية لغرض تحديد الفثة الهدف لنقطة البيانات. 


يوضح الجدول ۲-۷ الخطوات الخاصة بخوارزمية التعنقد المراقب. يتم استخدام الرموز 
التالية 3 وصف الخوارزمية: 


x=‏ : عبارة عن نقطة بیانات في مجموعة البیانات التدريبية بقيمة 
(Xi 1s... Xp)‏ معروفة ل بل لكل i=/,..., n‏ 
Xpy)‏ :)=× : عبارة عن نقطة البيانات اختبارية وبقيمة YI‏ يتم تحديدها 
لاحقاً 
T;‏ : تمثل فئة الهدف رقم 1,...,8 J=‏ 
Be: C‏ عنقود بيانات 
۶ : تمثل عدد نقاط البيانات في عنقود البيانات C‏ 
Xe‏ : تمثل اطركز المتوسط لعنقود البيانات C‏ والذي dash! Jie‏ 
المتوسط لجمیع نقاط البيانات في C‏ 


في الخطوة > من المرحلة التدريبية (أو الاستکشافیة)» بعد أن تنضم نقطة البيانات :× 
إلى عنقود البيانات C‏ يتم تحديث الرکز المتوسط لعنقود البيانات C‏ تدريجياً لينتج 
Xc(t+1)‏ (المركز المتوسط الذي تم تحديثه) باستخدام (4) Xe‏ × (المركز التوسط الحالي 
للعنقود)» ncl)‏ (العدد الحالي لنقاط البيانات في 0): 


7) (غ) يع‎ + xia 


nc(t)+1 
Xc(t +1) = : ۱ (۷-ع۱)‎ 
ne (t)Xcp(t) + Xip 
nc(t) +1 


YA‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات لامتکشاف bul‏ التصنيف slg‏ 


خلال آطر حلة التدريبية. مكن إزالة العنقود 777 a cluster)‏ لفئة هدف 
معينة إذا تم إنشاء العدید من عناقيد البیانات لفثة الهدف ode‏ وحیث إن اطركز التوسط 
(centroid)‏ للعتقود الوهمي لفئة هدف معين هو التجه التوسط (mean vector)‏ 
لجمیع نقاط البیانات التدريبية ذات الفئة الهدف» فمن الرجح أن العنقود الوهمي للفثة 
الهدف هو العنقود الأقرب لنقطة البیانات. إزالة العنقود الوهمي للفثة الهدف يلغي هذا 
الاحتمال ویوقف إنشاء عنقود جدید لنقطة البیانات» GY‏ العنقود الوهمي للفتة الهدف 
هو العنقود الأقرب لنقطة البیانات. 


الجدول (۲-۷) 
خوارزمية التعنقد المراقب - (انجليزي وعري) 

Step Description 

Training 

1 Set up s dummy clusters for s target classes, respectively, determine the centroid 
of each dummy cluster by computing the mean vector of all the data paints in 
the training data set with the target class T, and assign T,,, as the target class of 
each dummy cluster where T,,; # T, jf =1, ...,5 

2 FOR i=1ton 

3 Compute the distance of x, to each data cluster C including each dummy 

cluster, d(x, Fc), using a measure of similarity 
4 If the nearest cluster to the data point x, has the same target class as that of the 


data point, let the data point join this cluster, and update the centroid of this 
cluster and the number of data points in this cluster 

5 If the nearest cluster to the data point x, has a different target class from that of 
the data point, form a new cluster containing this data point, use the attribute 
values of this data point as the centroid of this new cluster, let the number of 
data points in the cluster be 1, and assipn the target class of the data point as 
the target class of the new cluster 


Testing 

1 Compute the distance of the data point x to each data cluster C excluding each 
dummy cluster, d(x, Te} 

2 Let the k-nearest neighbor clusters of the data point vote for the target class of the 
data point 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳.۹ 


الخطوة 
ايرحلة التدريبية أو الاستکشافية (Training)‏ 
۱ 


۲ 


الوصف 


قم بتجهیز عدد S‏ من العناقيد الوهمية (dummy clusters)‏ لعدد s‏ من OLA‏ الهدف 
(target classes)‏ على التوالي» ثم قم بتحدید اطرکز المتوسط (centroid)‏ لكل عنقود 
وهمي عن طريق حساب اللتجه التوسط greed (mean vector)‏ نقاط البیانات في 
مجموعة البیانات التدريبية والتي فئة هدفها تساوي Ty‏ ثم قم باسناد فئة الهدف ,7:۰ 
کفثة هدف لكل عنقود وهمي بحیث أن د ,... j=l,‏ 1+1 

کرر (FOR)‏ ابتداء من = إلى أن تصبح i=n‏ 

احسب المسافة من × إلى كل عنقود بیانات © ها في ذلك كل عنقود وهمي» (si, Kc)‏ 

عن طریق استخدام مقیاس للتشابه. 

إذا كان آقرب عنقود إلى نقطة البیانات x)‏ یحتوی على نفس فئة الهدف الوجودة قي نقطة 
البیانات ره اجعل نقطة البیانات هذه تنظم إلى هذا العنقود» ثم قم بتحدیث المركز 
التوسط لهذا العنقود وتحدیث عدد نقاط البیانات في هذا العنقود. 

إذا كان آقرب عنقود إلى نقطة البیانات ند یحتوی على فثة هدف مختلفة عن تلك 
الموجودة في نقطة البیانات د قم بتشکیل أو |نشاء عنقود جدید يضم نقطة البیانات 
هذه ثم قم باستخدام قیم متغیرات الخاصية لنقطة البیانات هذه کمرکز متوسط لهذا 
العنقود الجدید ثم اجعل ore‏ نقاط البیانات في العنقود يساوي ١ء‏ ثم قم باسناد الفئة 
الهدف لنقطة البیانات كفئة هدف للعنقود الجدید. 


المرحلة الاختبارية (Testing)‏ 


۱ 


۲ 


احسب المسافة من نقطة البیانات × إلى كل عنقود بیانات C‏ باستثناء كل عنقود وهمي 
Xo)‏ ۳ 

اجعل أقرب / من العناقید المجاورة لنقطة البیانات تقوم بالتصویت (Vole)‏ لغرض تحدید 
الفثة الهدف الخاصة بنقطة البیانات. 


امْثال (۲-۷): 


استخدام خوارزمية التعنقد المراقب مع مقیاس المسافة الاقليدية للاختلاف» ومصنف 
آقرب #- مجاور لتصنیف ما إذ! كان نظام التصنیع معطلاً أم لا باستخدام مجموعة البیانات 
التدريبية في الجدول ۰۱-۷ ومجموعة البیانات الاختيارية في الجدول VV‏ حیث تم شرح كلا 
الجدولین في JEL!‏ ۱-۷. 


Sully عدت‎ al bial, خوارزمياتٍ لمات‎ 


١ ۳‏ من dle tI‏ التدریبیة يتم تجهيز اثنين من العناقيد الوهمية C23 Ci‏ 
لاثنين من الفثات الهدف» Y=T‏ و0 على التوالی: 


ycı=2‏ (تشير إلى أن C7‏ هو عنقود وهمي بفئة هدف مختلفة عن فئتي هدف في 
مجموعات البيانات التدريبية ومجموعة البيانات الاختيارية). 
2= دعر (تشير إلي أن C2‏ هو عنقود وهمي) 


1+0+0+0+0+0+0+0 +0 
9 
0+1+0+0+0+0+0+0+0 


9 
0+0+14+0+ 0+ 0+ 0+ 0+0 
0.11 


9 
0+ 1+ 1+ 1+ 0+ 0+ 0 + 0+ 0 er 


0.33 5 
1 14+0+04+04+1+04+04+0+0{ — 
0.22| = ا 


9 0.22 
0+0+1+0+0+1+0+0+0| lose 


9 0.44 
1+ 0+ 1 + 0 + 1+ 1+ 1+ 0 + 0 0.33 
9 
0+ 1 + 1 + 1 + 0+ 0+ 0+ 1+ 0 


9 
1+0+0+0+1+0+0+0+1 
9 
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الجزء الثاني 
SAAT Le‏ 


ETL TLE ARETE ۱4 117 نا‎ PTE 25201211 


5 
i 3‏ 
| ث زمرت زمرت onioni‏ ]اج ]هس 2 ]اج ]| ]هر 
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في الخطوة ۲ من المرحلة التدريبية» يتم البدء بمعالجة Jol‏ نقطة بيانات ,ا في مجموعة 
البيانات التدريبية: 


۳۲ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات لاستكشاف blif‏ التصنیف والتنبؤ 


1 = 


| شرج هه و بر وه بر جح حم 
< 
۱ 
م 


في الخطوة ‏ من المرحلة التدريبية. يتم حساب BLA‏ الإقليدية من :2 إلى كل من 
العتاقيد الحالية :C29 Ci‏ 


(1 — 0.11)? + (0 — 0.11)? + (0 — 0.11)? + (0 - 0.33(2+)1- 17 
+(0 — 0.22)? + (1 — 0.56)? + (0 - 0.44)? + (1 - 0.33)? 


۳ (1 — 0)? + (0 - 0(2 + (0 - 0(2 + (0 - 0(2+)1-0(2 _ 
Xužca)= | 4(9—0)2 + )1- 0(2 + (0 - 0(2 + )1- 02 


وحيث إن Cy‏ هو العنقود الأقرب إلى x7‏ وله فئة هدف مختلفة عن تلك الخاصة ب 
X7‏ يتم LAS‏ الخطوة ۵ من المرحلة التدريبية بتشكيل أو إنشاء عنقود بيانات جديد C3‏ 
الذي يحتوي على 7 : 


d(x, #2) = = 6 


Yc =1 


Xc3 = 


| 
ضراو هه در ۵ در جح = 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۱۳ 


الجزه الثاني 


es,‏ د رك م 


بالعودة إلى الخطوة ۲ من المرحلة التدريبية. يتم البدء بمعالجة نقطة البيانات الثانية 
2 في مجموعة البيانات التدریییه: 


= رد 


O bhe 5ش‎ OF OF © 
| 
١ 
p 


في الخطوة ۳ من المرحلة التدريبيةء يتم حساب المسافة الإقليدية من 2× إلى كل من 
العناقيد الحالية :C39 C2 Cy‏ 


(0 - 0.11)? + (1 — 0.11)? + (0 - 0.11)? + (1 — 0.33(2+)0-0.22(2 | 1.44 
+(0 ¬ 0.22)? + (0 — 0.56)? + (1 — 0.44)? + (0 - 2 ma 


_.  {(0—0)?+(1—0)? + (0 — 0)? + (1 — 0)2+(0 — 0)? _ 
d(2,%,) = | +(0—0)?+ (0-0)? + )1-0(2+ )0- 2«رم‎ 3 
رديه‎ = |07? + O- OF + (0—0)? + 0 — 0(2+)0- 12 

Xz tes = +(0 - 0(2 + (0 - 1(2 + (1 — 0}? + )0 1)? 


.2.65 = 
حيث إن Cy‏ هو العنقود الأقرب إلى ره وله فئة هدف مختلفة عن تلك التي لدى X2‏ يتم 
تنفيذ الخطوة © من المرحلة التدريبية بتشكيل أو إنشاء عنقود بيانات جديد © الذي 
يحتوي على X2‏ 


d(xz,%¢,) = 


1٤‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات | لاستکشاف bulo‏ التصنيف ؛ والتنيق 


S 
۱ 
OH باه برت هو ه‎ ۵ 


بالعودة إلى الخطوة ۲ من اطرحلة التدريبية» يتم البدء بمعالجة نقطة البیانات الثالثة 
3 في مجموعة البیانات التدریبیة: 


X3 = 


O m PR OF ROO 
د‎ 
il 
5 


في الخطوة ۳ من المرحلة التدريبية. يتم حساب المسافة الإقليدية من * إلى كل من العناقيد 
الحالية «C2 C}‏ وناء و4 


(0 — 0.11)? + (0 — 0.11)? + (1 — 0.11}? + (1 - 0.33)?+(0 - 2 5 


+(1— 0.22)2 + (1 — 0.56)? + (1 ~ 0.44)? + (0 -2 7 


a(x3,%¢,) = 


استكشاف البيانات: نظريات وخوارزميات وأمثلة yio‏ 


الجزء الثاني 


(0 - 0)? + (0 - 0(2 + (1-0)? + (1 - 0)2+(0 - 0)? 
d(x,¥e,) = | +)1- 0(2 + )1-0(2+ (1 0)2 +(0-0)2 7274 
E 
d(s,¥a)= | هسوب‎ 0(2 + (0-12 225 
dzo) = 40 - 97 +O- 1 + (1-0)? + (1 124(0 - 0)* _ 
22, žc) = +(1 - 0(2 + (1 - 0(2 + )1 - 1(2 + (0 - 2 


حيث إن Cy‏ هو العنقود الأقرب إلى وه وله فئة هدف مختلفة عن تلك التي لدى ويد يتم 
تنفيذ الخطوة © من المرحلة التدريبية بتشكيل أو إنشاء عنقود بيانات جديد Cs‏ الذي 
يحتوي على 3× 


i 
= 


Yes = 


R 

° 

| 
© جح سر رن Opp‏ 


بالعودة إلى الخطوة ۲ من المرحلة التدريبيةء يتم معالجة نقطة البيانات الرابعة »× في 
مجموعة البیانات التدرييية: 


ph ا‎ a G E E EEE CS fk a 
استکشاف البيانات: نظريات وخولرزميات وأمثلة‎ y 


خوار زميات لاستكشاف bul‏ التصنیف والتنبؤ 


X4 = 


f‏ ۵ وه برهو وه ره 
<= 
1 
= 


في الخطوة ۳ من المرحلة التدريبية» يتم حساب المسافة الإقليدية من +× إلى كل من 
العناقيد الحالية :C59 Cs C3 «C2 C}‏ 


d(x) = (0 — 0.11}? + (0 — 0.11)? + (0 — 0.11)? + (1 — 0.33(2+)0 0.22)? 
40 +(0 — 0,22(2 + (0 — 0,56(2 + (1 — 0.44)? + )0 0.33)? 


= 1.14 


(0 - 0)? + (0 - 0(2 + (0 - 0)? + (1 - 0)7+(0 - 02 
d(x, eq) = | +(0-0)2+(0-0)2+(1-0)2+(0-0)2 711 
(0 — 1)? + )0 - 0(2 + (0 - 0(2 + (1 — 0)2+(0 - 1)? 
d(x4%c,) = s +(0-0)2+(0-1)2+(1-0)2+(0-1)2 7274 
daz = [0-0 + 0-1 + 0-0 + 1 -90-0 ري‎ 
ی ان‎ +(0 — 0)? + (0 — 0(2 + )1- 1)? + (0-0)? 
مب‎ _ (0 - 0(2 + )0 - 0(2 + )0 - 1(2 + )1- 120-02 _ 
d(x4,¥e,) = | +)0-1(2+)0-1(2+)1-1(2+ 2(م-0)‎ 717 


حيث إن 4) هو العنقود الأقرب إلى X4‏ وله الفثة الهدف نفسها كما في 4 يتم تنفيذ 
الخطوة ۶ من المرحلة التدريبية لإضافة :۵ إلى العنقود Cy‏ والذي سيتم تحديثه لاحقاً: 


Yo, =1 


استكشاف البيانات: نظريات وخوارزمیات وأمثلة rw‏ 


الجزء الثاني 


CE K ET RLA ETEA کف هه سر مرت‎ SONS MN OP A JT LDN N MAYE Dt وم 2 و او‎ 


Xo, = 


i 
= 
ه جره ده مه بر و‎ 


تستمر المرحلة التدريبية أو الاستکشافية مع نقاط البیانات التبقية ويد ۵6 X7‏ ون 
ووج وتنتج العناقید النهائية C2 CI‏ و C5={x3} C4=fx02, x4} C3=fx1 xs}‏ 
C9={xo} C8={xs} C7={x7} CO={xo}‏ زور -0[0: 


A I بم ا ا‎ AAS 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ ۳4۸ 


= 


Xe, = 


I 
ه ه ۵ ه ه ه ه ه‎ °0 


No, | 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 


۳۹ 


Xe = 


1 
0 
0 
0 
Zr. =|1 
0 
1 
0 
1 


0.5 


Xe, = 


Om OO OF 0 
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خوارزمیات bl a‏ ال لصيف والتنبؤ 


tad 
K 
Il 
ره‎ pp oppo © 


زحم 
“ 
H‏ 
در 


| 
خم 


Yeo, = 


Xes = 


2 چ 5 و ج درس SE ao‏ © 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۳۹ 


الجزه الثاني 


2۳۳2۳ 


Xe, = 


١ 
ته هه ه ه ه دم ه وه‎ 


Yo, > 1 


216 = 


١ 
6 هه ه ه بر‎ O0 هن‎ 


tc, = 1 


۳۳۲ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


slo‏ زمیات لاستکشاف أغماط اله التصنیف والتنيؤ 


= و20 


e O 5 oo © 2 © 


Xero = 


5 5 5 5939-5 وت 


Nes = 1. 


في مرحلة الاختبارء أول نقطة بيانات في مجموعة البيانات الاختبارية, 


استکشاف البيانات: نظریات وخوارزمیات وأمثلة ۳۳۳ 


الجزء الثاني 


CSS ete 


R 
۱ ١ 
از سر مرج جر جر بح بر خم خم‎ 


لها المسافات الإقليدية ۰1.73 2.06 2.45 2.65 2.45 2.45 ۸2.45 2.659 إلى 
العتاقید غير الوهمية C109 Co «C8 C7 C6 Cs C4 ‘ C3‏ على التوالي. 


ومن ثم. فان العنقود C3‏ هو ابلجاور الأقرب ل x‏ والفئة الهدف ل × يتم إسنادها 
لتکون 1. العناقید الأقرب ملجموعات نقاط البیانات التبقية من 2 إلى 16 في مجموعة 
البیانات الاختيارية هي: 
Ce C3/C5 C4 C5 C3 C3C3 C5‏ ورل)لونالون) C39 Cs Cs Cs C3 C5‏ 


بالنسبة لنقطة البيانات 8 هناك تعادل بين Cs C3‏ لغرض تحديد العنقود الأقرب. 
وحيث إن WS‏ من C59 C3‏ لهما الفئة الهدف 1ء يتم إسناد فثة الهدف ۱ لنقطة البيانات 
8. بالنسبة لنقطة البيانات 10 هناك أيضاً تعادل بين Cio Cs C3‏ لغرض تحديد أقرب 
عنقود. وحيث إن الغالبية (العنقودان (Cog C3‏ من العناقيد GW!‏ المتعادلة لها الفئة 
الهدف d‏ يتم إسناد الفئة الهدف 1 إلى نقطة البيانات 10. ومن ثم يتم |سناد كافة نقاط 
البيانات في مجموعة البيانات الاختيارية للفئة الهدف آوالتي صنفت بشكل صحيح كما هو 
مبين في الجدول ۲-۲. 


RA AEE AE بجي بر‎ SE SS. i. سعط‎ TT TTT aa 1-1: اقل‎ Sn aa a 77 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ £ 


خوار زمیات میت cican bul‏ ولتت 


:(Software and Application ( والتطبیقات‎ Cee ۳-۹۷ 


يمكن تطبیق مصثف آقرب #-مجاور وخوارزمية التعنقد الراقب بسهولة باستخدام 
برمجیات حاسوبية. ويمكن الاطلاع على تطبیق خوارزمية التعنقد الراقب لکشف الهجمات 
على الانترنت في )2006 ,2005 ,2002 (Li and Ye,‏ و )2008 (Ye,‏ وق (Ye and‏ 
Li, 2002)‏ 


(Exercises) التمارين‎ 


۱۷ في مجموعة البیانات الخاصة بالحلقات الدائرية في مكوك الفضاء في الجدول ۲-۱ 
المتغير الهدف هو عدد الحلقات الداثرية ذات الأحمال الثقيلة (number of O-‏ 
rings with Stress)‏ له ثلاث قیم: ۰۵ 1ء و2. اعتبر هذه القیم الثلاث کقیم نوعية, 
في حين أن درجة حرارة الإطلاق hibs (Launch - Temperature)‏ فحص 
التسرب (Leak ~ check pressure)‏ هما متغيرات الخاصية, والحالات بالأرقام ۱۳- 
۳ کبیانات تدريبية» والحالات بالأرقام ۱۲-۱ كبيانات اختبارية» والمسافة الإقليدية 
كمقياس للاختلاف. قم بہناء مصنف أقرب ١‏ - مجاوں ومصنف أقرب -Y‏ مجاور, ثم 
قم بفحص ومقارنة أدائهما التصنيفي. 

۲۷ أعد عمل التمرين ۱-۷ باستخدام متغيرات الخاصية المطبعة من طريقة التطبيع في 


Y-Y Jolki 
أعد عمل التمرين ۱-۷ باستخدام متغيرات الخاصية المطبعة من طريقة التطبيع في‎ ۷ 
العادلة لا-ع.‎ 


۸-۷ باستخدام نفس مجموعتي البيانات التدريبية والبيانات الاختيارية في التمرين‎ ٤-۷ 
ومقیاس تشابه جيب التمام (جتا) قم بإنشاء مصتف أقرب ۱- مجاون وإنشاء مصتف‎ 
أقرب ۳- مجاورء ثم قم بفحص ومقارنة آدائهما التصنيفي.‎ 

0-۷ باستخدام نفس مجموعتي البیانات التدريبية والبيانات الاختيارية في التمرين ۰۱-۷ 
وخوارزمية التعنقد المراقب» ومقياس المسافة الإقليدية للاختلاف» قم يبناء مصنف 
أقرب ۱- عنقود مجاورء slig‏ مصنف أقرب ۳ - عنقود مجاور, ثم قم بفحص ومقارنة 
آدائهما التصنيفي. 
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العادلة ۲-۷. 
sel V-V‏ عمل التمرین 0-۷ باستخدام متغیرات الخاصية املطبعة من طريقة التطبیع في 
ابلعادلة ۶-۷. 


A-Y پاستخدام نفس مجموعتي البيانات التدريبية والبيانات الاختيارية 3 التمرين‎ A-Y 
وخوارزمية التعنقد المراقب» ومقياس تشابه جيب التمام (جتا» قم ببناء مصنف أقرب‎ 
أقرب ۳ - عنقود مجاور, 3 نم قم بفحص ومقارنة أدائهما‎ ar sling عنقود مجاورء‎ -١ 


التصنيفى. 


۲۳۹ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


الجزء الثالث 
خوارزميات لاستكشاف أنماط العنقود والاقتران 
Algorithms for Mining Cluster and‏ 
Association Patterns‏ 


خوار زميات bul ara‏ لعنقود والاقتر ان 


-A‏ التعنقد قد الهرمي 
Hierarchical Clustering‏ 


ينتج عن التعنقد الهرمي (Hierarchical clustering)‏ مجموعات من سجلات 
البيانات المتشابهة على مستويات مختلفة من التشابه. يقدم هذا الفصل إجراء من أسفل 
إلى أعلى من التعنقد الهرمي. يسمى التعنقد الهرمي ابلحتشد ( agglomerative‏ 
(hierarchical clustering‏ وترد قائمة من حزم البرمجيات التي تدعم التعنقد الهرمي 
ويتم إعطاء بعض التطبيقات للتعنقد الهرمي مع مراجعتها. 


١-8‏ إجراء التعنقد الهرمي المحتشد 
(Procedure of Agglomerative Hierarchical Clustering):‏ 
إذا كان لدينا عدد من سجلات البيانات في مجموعة البیانات» فان استخدام خوارزمية 
التعنقد الهرمي ا محتشد ينتج dic‏ عناقيد من سجلات البيانات اللتشابهة حسب الخطوات 
التالية: 


.١‏ ابدأ هجموعة عناقید» كل منها يحتوي على سجل بيانات واحد. 

Y‏ قم بدمج آقرب عنقودين لبعضهما لتشكيل عنقود جديد يستبدل العنقودين 
الأصليين ويحتوي على سجلات بيانات من العنقودين الأصلبين. 

¥ كرر الخطوة ۲ حتى يكون هناك عنقود واحد فقط يحتوي على BS‏ سجلات 
البيانات. 


الجزء التالي يوضح استخدام طرق عدة لتحديد أقرب عنقودين في الخطوة ۲. 
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الجزء ا الثالث 


۲-۸ طرق تحديد المسافة بين عنقودين 
(Methods of Determining the Distance between Two Clusters):‏ 
من أجل تحديد آقرب عنقودين في الخطوة Y‏ نحتاج إلى طريقة لحساب المسافة بين 
العنقودين. يوجد عدد من الطرق والأساليب لتحديد المسافة بين العنقودين. يصف هذا 
الجزء أربعة طرق: طريقة الترابط المتوسط (average linkage method)‏ طريقة 
الترابط الأحادي {single linkage)‏ طريقة الترابط الكامل (complete linkage)‏ 
وطريقة الرکز التوسط (centroid method)‏ 


في طريقة الترابط اللتوسط (average linkage)‏ فإن المسافة بين عنقودين (العنقود 
K‏ ويرهز Ck al‏ والعنقود L‏ ویرمز له (CL‏ 4011 هي متوسط المسافات بين أزواج من 
سجلات البيانات (pairs of data records)‏ وكل زوج به سجل بيانات واحد من العنقود 
K‏ وسجل بيانات آخر من العنقود بك على النحو التالي: 


0 )3 x1) 
Dg, = eee (1-A) 


Nyt 
XKECK XLEC, EE 


XK,1 X41 
XK = : XL = : ۳ 
Xxp Xip 
حيث إن:‎ 


عد يدل على سجل بيانات في Cx‏ 

× يدل على سجل بيانات في Cr‏ 

۶ يدل على عدد سجلات البيانات في Ck‏ 

Cr يدل على عدد سجلات البيانات في‎ nL 
هي السافة بين سجلي بيانات والتي يمكن حسابها باستخدام المسافة‎ XK) 
التالية:‎ (Euclidean distance) الإقليدية‎ 2 


سرت TCC TR‏ رز ah COR YOY aa‏ سطس Ae‏ سس lS LS‏ اسان ار رس O‏ و ور بر سات ف Lae‏ 
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خوار زمیات لاستكشاف bul‏ العنقود والاقتران 


p 
2 
d(xx, xX) = 0 = zi) )۲-۸( 
i=1 


كما يمكن استخدام مقاييس تشابه/اختلاف بين نقطتي بيانات والتي تم توضيحها في 
الفصل V‏ وكما هو موضح في الفصل V‏ فإن تطبيع المتغيرات AP‏ ... ,1× قد يكون ضرورياً 
قبل استخدام مقياس الاختلاف أو التشابه لحساب المسافة بين سجلي البيانات. 
مثال :)١١8(‏ 


قم بحساب المسافة بين سجلي العنقودين التاليين باستخدام طريقة الترابط المتوسط 
والمسافة الإقليدية التربيعية لمجموعة من نقاط البيانات: 


Ck = {xı X2, %3 } 


Cy = {x4 X5} 
1 0 0 0 0 
0 0 0 0 0 
0 0 0 0 0 
0 0 0 0 0 
۱0ج برد [0]-<و*« |1]< وه |11 رد‎ x, << 
0 0 0 1 0 
1 1 0 1 1 
0 0 0 : | 
1 1 1 0 0 


هناك ستة أزواج من سجلات البيانات بين X5) ¥2 X4) (Xr X5) (X1 X4) :C19 CK‏ 
{x3 X5) (x3 X4) 2‏ ويتم حساب مسافتهم الإقليدية التربيعية كما يلي: 


9 
d(x1,%4) = X Gas = 43)" 
i=1 
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الجزء الثالث 


۳۳۲ 


vE 0(2 + (0 - 0) + )0 - 0) + )0- pi- 0 
+ )0 - 1۶ 


+(1 - 1(2 + (0-0)? + (1-0)? = 4 


9 
x5) = X (x1 xsi) 


i=1 


= (1 — 0)? + (0 - 0)? + (0 — 0)? + (0 - 0)? +(1 - 0)? 


+ (0-0)? 
+1- 1)? + (0-0)? + (1-0)? =3 


9 
d(x2,X4) = 6 = x4) 


i=1 


= (0 — 0)? + (0 — 0)? + (0 — 0)? + (0 — 0(2 +)1 ¬ 0)? 


+ (0-1)? 
+(1-1)?+ (0-0)? + (1-0)? =3 


9 
d(x, Xs) = > (x2 = xs) 
i=1 


= (0 - 0)? + (0 - 0(2 + (0 — 0)? + (0 - 0(2+)1--7 


+ (0 - 72 
+)1-1(24+)0-0(2-+)1-0(2 - 2 


9 
a{x3, X4) = 2 (a: g Xai) 


اک 


= (0 — 0)? + (0 — 0)? + (0 - 0(2 + (0 — 0)?+(0 - 0)? 


+ (0-1)? 
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+)0 - O eee 7 


9 
d(x3,x5) = X Ceos = xsi) 


t=1 


= (0 — 0(2 + (0 — 0)? + (0 — 0)? + (0 — 0)7+(0 — 0) 
+ (0-0)? 


+(0 - 1(2 + )0 - 0(2 + (1-0)? = 2 
Das 3 5 A(X, xı) 


Ngn, 


XKECK XLECL 
لعي ی مر ی و‎ 
۳ 3x2 3x2 3x2 3x2 2 
= 2.8333 


في طريقة الترابط الأحادي (single linkage)‏ المسافة بين عنقودين تمثل المسافة الأقل 
بين سجل Oblo‏ في عنقود واحد وسجل بيانات في العنقود الآخر: 


Dg = 101210 بر«( ريرة)‎ € Cy, ند‎ € Cy}. (Y-A) 
JELI في‎ Cza Ck باستخدام طريقة الترابط الأعادي» يتم حساب بالمسافة بين العنقودين‎ 
كما يلي:‎ ١-8 
Dy x = min{d (Xx, x1), xx € Cy, x, € Cy} 


= minfd(x,, X4) d(x, xs), d({x2, x4), d(x, Xs), d(xs, X4), d(x3, xs} 


= min{4, 3,3, 2,3, 4} = 2. 
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الجزء ال الثالث 


في طريقة الترابط الکامل 77 copie‏ السافة بين عنقودین تمثل ابلسافة 2 
بين سجل بيانات 3 عنقود واحد وسجل بیانات 3 العنقود الاخر: 
Cy}. (E-A)‏ ع Cy, xX,‏ ع Dg, = max{d (xr, x1), Xg‏ 


باستخدام طريقة الترابط الكاملء يتم حساب المسافة بين العنقودين Cra Ck‏ في JEL‏ 
Y-A‏ كما يلي: 


Cy, x, © Cy}‏ ع maxfd (xg, XL), Xk‏ = ورم 


= max{d(x,, X4), d(x, Xs), d(x2, X4) d(x2, Xs), d(x3, X4), 2ك‎ 0 
= max{4, 3,3,2,3,4( = 4. 


في طريقة اللركز املتوسط (ceratoid)‏ المسافة بين عنقودين تمثل المسافة بين اطراکز 
التوسطة للعناقید» ويتم حساب الطركز المتوسط لعنقود باستخدام doch!‏ المتوسط لجميع 
سجلات البيانات في العنقود, على النحو التالي: 


Dg = 4) Xz) (0-A) 
nK n, 
Dici Xk, Diet X11 
nk RL 
Xg = i X, = : (1-A) 
E x yee x 
k=1*kp 1-1 “bp 
ng 11۴ 


Ss pp el AF ae ne ret seme eat TET 
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خوارزم زمیات امان vul:‏ العنقود والاقتران 


تام طريقة 5 (centroid linkage HE 7 ee‏ والمسافة 
الإقليدية التربيعية لنقاط البیانات» يتم حساب اللسافة بين العنقودين Cig CK‏ في المثال 
۱-۸ كما “gh‏ 


= | نب تح NOW! NO‏ | تن كس e‏ 


1+0+0 


3 


0+0 +0 


3 


0+00 


3 
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3 
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1+1+1 


3 


n 
2۶ 4 21 


ny 


ng ۱ 
Leni Xkp 


Ng 


e 


استکشاف البیانات: نظريات وخوارزميات وأمثلة 


الجزه الثالث 


Pa SM ESTE FY ELEM ALN TSE VAENE SNP N TES ATER LTR:‏ یه EE Fa)‏ تس نادزی Feb ND‏ ا 


| 
li‏ 
M Mm‏ 
لاق ...“د 
X X‏ 
ح 3 
Ul‏ 
o ©‏ هه o‏ ه هر 
+ |ده + ده + ایح + ادم + +N)‏ 
oO oO o o 2‏ ع 
(ees‏ 
۱۱ 
p‏ 
ه حه حك مشر | یم براح O‏ 


Dg = d(Xq,%) = 6 = o) + )1- 0}? + )1- 7 
+a-0+ (2-0) +(0-3) +Ġ-1) 
+ (0 - 0(2 + (1 — 0)? = 4.9167. 


يوجد طرق متنوعة لتحديد المسافة بين عنقودينء حيث إن استخدام هذه الطرق ينتج 
dic‏ مستويات مختلفة من التكلفة الحاسوبية اللازمة لإجراء العمليات الحسابية. وقد ينتج 
عنها نتائج تعنقد مختلفة. على سبيل المثال» فإن طريقة الترابط المتوسطء وطريقة الترابط 
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خوار زمیات لاستكشاف bial‏ العنقود والاقتران 


3 وطريقة الترابط الكامل تتطلب حساب المسافة بين كل زوج من نقاط البيانات من 
عنقودین. على الرغم من أن طريقة المركز التوسط لیس لدیها هذا امتطلب الحسابيء إلا 
أنه يجب على طريقة بقة اطرکز المتوسط أن تحسب الممركز التوسط لكل عنقود جدید والمسافة 

من العنقود الجديد إلى العناقيد القائمة. إن طريقة الترابط المتوسط وطريقة المركز المتوسط 
تأخذ بعين الاعتبار وتتحكم بانتشار وتشتت نقاط البيانات في كل عنقود. في حين أن طريقة 
الترابط الأحادي وطريقة الترابط الكامل لا تضع أية قيود على شكل العنقود. 


۸ توضيح كيفية إجراء التعنقد الهرمي 
(Illustration of the Hierarchical Clustering Procedure):‏ 


يتم توضيح إجراء التعنقد الهرمي 3 المثال ۰۲-۸ 


امثال (۲-۸): 
قم بإجراء التعنقد الهرمي على بيانات اكتشاف أعطال النظام في الجدول ۱-۸ باستخدام 
طريقة الترابط الأحادي. 
الجدول (۱-۸) 
مجموعة البیانات الخاصة باکتشاف أعطال النظام مع تسع حالات من الأعطال الآلية الأحادية 
رقم الحالة - Instance‏ متغبرات الخاصية عن جودة وحدات النتج 
UY!)‏ المعطلة - Attribute Variables about Quality of Faulty‏ 
Parts‏ 
xo Xe XX 26 XS X XK X2 XI (Machine‏ 
(MI)‏ ۱ 1 0 0 0 1 0 1 0 1 
D 2(M2)‏ 1 0 1 0 0 0 1 0 
3(M3)‏ 0 0 1 1 0 1 1 1 0 
4(M4)‏ 0م 0 0 1 0 0 0 1 0 
5(M5)‏ 9 0 0 0 1 0 1 0 1 
6(M6)‏ 0 0 0 0 0 1 1 0 0 
7(M7)‏ 0 0 0 0 0 0 1 0 0 
8(M8)‏ 0 0 0 0 0 0 0 1 0 
9(M9)‏ 0 0 0 0 0 0 0 0 1 
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يحتوي الجدول J ١-8‏ مجموعة البيانات لاكتشاف فاا النظام. بما في ذلك تسع حالات 
للأعطال الآلية الأحادية. ويتم استخدام متغيرات الخاصية التسعة الخاصة بجودة وحدات 
المنتج فقط في التعنقد الهرمي. وفيما يلي نسرد سجلات البيانات التسعة في مجموعة 


البيانات. 
0 0 0 0 1 
0 0 0 0 1 0 
0 0 0 1 0 0 
0 0 1 1 1 0 
x5 =|1 xs = |0‏ 0- يد 0 = x, =ļ1 7 0 x3‏ 
1 0 0 1 0 0 
1 1 0 1 0 1 
0 0 1 1 1 0 
0 1 0 0 0 1 


0 
0 
0 
0 
0 
0 
1 
0 
0 


= ريد 
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R‏ 
© 
l‏ 
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۱۱ 
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سوف تظهر نتائج التعنقد أياً من الأعطال الآلية الأحادية يوجد بها أعراض متشابهة تخص 
مشكلة جودة وحدات امنتج. 


ويبين الشكل ۱-۸ إجراء التعنقد الهرمي الذي يبدأ بالعناقيد التسعة التالية وبسجل بيانات 
واحد 3 كل عنقود: 


۳۳۸ استکشاف البیانات: Gb BS‏ وخوارزمیات وأمثلة 


خوارزميات لاستكشاف bul‏ العتقود والاقتران 


(y= i} C2 = {x2} ae ={x3} G= (x4) 4 
= {xs} 


Cg = {xg} Cr = {xy} Ca = {xg} Co = {xo}. 


الشكل (1-A)‏ 
نتيجة التعنقد الهرمي لمجموعة بيانات اكتشاف أعطال النظام 


مساقة الدج 
Merging distance‏ 
3 
2 
1 
و Ce. Cs C, Co G- Ce -C‏ ره 
الجدول (۲-۸) 


امسافة لكل زوج من العناقيد: C8 C7. Ci C5 C4 C3 C2 Cy‏ وو) 
Cr= C= Css C= G= Q= C=‏ ع ول ع ون 
fxr} o x} {x} {x} fx} fer}‏ دا دا 


3 5 3 4 1 6 7 7 لتذياف‎ 
4 2 4 5 6 1 4 C= {ra} 
6 4 4 6 6 3 Cs={x3} 
3 1 4 4 5 CH {xi} 
2 4 2 3 Cs={xs} 
3 3 1 C= {xs} 
2 2 C= he} 
2 عون‎ 
Cx} 
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نظراً OV‏ كل عنقود يحتوي سجل بيانات واحد فقطء فان المسافة بين عنقودين هي المسافة 
بين سجلي البيانات في العنقودین» على التوالي. يوضح الجدول Y-A‏ المسافة لكل زوج من 
سجلات البیانات» والتي تمثل أيضا المسافة لكل زوج من العناقيد. 

هناك أربعة أزواج من العناقيد ينتج عنها أصغر مسافة بقيمة تساوي 1: (Ci C5)‏ 
(Co C7)9 (Cs Cs) (C2 Ca)‏ نقوم بدمج (Cy C5)‏ لتشكيل عنقود جديد C75‏ ودمج 
(Co C7)‏ لتشكيل عنقود جديد 67). وحيث يشترك العنقود ٥+‏ في اثنين من أزواج العناقيد 
(C4,Ca)9 (C2, Ca)‏ فیمکننا دمج زوج واحد فقط من العناقيد. نختار بشكل عشوائي أن 
ندمج (C2 Cr)‏ لتشكيل عنقود جديد C24‏ ويبين الشكل ۱-۸ هذه العناقيد الجديدة في 
مجموعة جديدة من العناقيد وور0) 24 Cog Ce »06,7 C3‏ 

Co, Cs Co,7 C3 C24 Cis اللسافة لكل زوج من العناقيد,‎ Y-A الجدول‎ yha 
هناك أربعة أزواج من سجلات البيانات‎ JEM باستخدام طريقة الترابط الأحادي. على سبيل‎ 
6 T وبا مسافات التي بينهم‎ (x05 و(وند‎ dxs 2) رح‎ X4) dxi X2) C249 C15 بين‎ 
و 5 على التواليء من الجدول ۰۲-۸ ومن ثم فان المسافة الأقل من بين هذه المسافات‎ 6 
C 24 هي 5. والتي 5535 على أنها المسافة بين 15 © و‎ 


(¥-A} الجدول‎ 
Co s C8 C6,7 C3 .)2,4 01,5 کل زوج من العناقید:‎ Blue 
Cg رق ع‎ Cis= 
ارين عم‎ Cee بیدا‎ x7} C= tx; {xz x} {xn xs} 
2=min 4=min 2=min 6=min 5=min Cis {xn xs} 
{3, 2} {5,4} {4,3,3,2} {7,6} {7, 6,6, 5} 
3=min t=min 4=min 3=min Cia = {X25 x4} 
{4, 3} {2,1} {5,4,4,4} {4,3} 
6=min 4=min 5=min C3 = {xs} 
{6} {4} {6, 4} 
2=min 2=min Cs = (x6, x7} 
{3, 2} 3,2} 
2 = min Cs = {xe} 
{2} 


Co = {xs} 
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الجدول (۸-ع) 
مسافة کل زوج من العناقيد: C3 C2,4,8 C1,5‏ 06,7). و Co‏ 


Co= {o} Car = وتا‎ x7} دونه‎ {x3} Cras= تا‎ xe xs} Cis = {er xs} 


Cis= {xn x3}‏ }4 وه 2 ,7{ oo‏ )332 7 تم 
ion 7 Craa= {x2 X4 x8}‏ )2 ,443 4 ,5{ )4.3.2( 
i 0 7 Gak‏ 6 
Cer = {xs x7}‏ 0 


Co = {xo} 


إن أقرب زوج من العناقيد هو lag (C24 Cs)‏ تساوي 1. دمج العنقودين C24‏ 
Cs,‏ ينتج عنقوداً جديداً هو -C248‏ ويكون مجموعة جديدة من العناقید. C248 Cis‏ 
Cog C67 C3‏ 


Cog 6ن)»‎ C3 C248 Cis المسافة لكل زوج من العناقيد.‎ ٤-۸ الجدول‎ bx 
(C15 و(و0),‎ (Cis )6۶( باستخدام طريقة الترابط الأحادي. أربعة أزواج من العناقيد,‎ 
ينتج عنها أصغر مسافة وتساوي 2. حيث أن العناقيد الثلاثة‎ (Cs,7.Co)9 (C2.4,8,Co,7) 
تبعد نفس المسافة بعضها عن بعض, نقوم بدمج الثلاثة عناقيد معاً لتشكيل‎ 5 
C9, )0/,5 قد تم دمجه مع‎ ٥6,7 OY C2,4,8 لا يتم دمج 067 مع‎ -C1,5,6,7,9 عنقود جدید.‎ 
C3 248 ۰,5,6,7,9 ويكون لدينا مجموعة جديدة من العناقید.‎ 


يعطي الجدول ٥-۸‏ المسافة لكل زوج من العناقيد. C3 C248 C1,5,6,79‏ وذلك 
باستخدام طريقة الترابط الأحادي. ينتج زوج العناقيد (C1.5,6,7,9, C2,4,8)‏ أصغر مسافة 
وتساوي 2. دمج العناقید. و01,5,6,7) JSt2C2,4,89‏ عنقود جدید. C1,2,4,5,6,7,8,9‏ ويكون 
لدينا مجموعة جديدة من العناقید. و0,2,545,678). ود والتي لديها مسافة 3 ويتم 
دمجها في عنقود واحد. C1,23,4,5,6,7,8,9‏ 
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الجزه الثالث 


الجدول (0-A)‏ 
مسافة كل زوج من العناقید: 9 ,6,7 ,5 C1,‏ 2,4,8 و C3‏ 


C1,5,6,1,9= {Xh XS, Xó, 


C3 = {x3} Cras = x2, Xa Xs} xz, x9} 
4 = min {7, 6,6, 2 = min {7, 6, 5, 6, 5, 4, C1,5,6,7,9= {Xr XS, by X7, 
4, 6} 5, 4, 3,4, 4, 2, 4, 3, 2} xo} 
3 = min )4, 3, 4} C248 = {X2, x4, Xe} 


Cs = {x3} 


ويبين الشكل ۱-۸ Lad‏ مسافة الدمج» والتي ULF‏ المسافة بين عنقودين عندما يتم 
دمجهما معا دُسمى شجرة التعنقد الهرمي الموضحة في الشكل ۱-۸ برسم الدندروقرام 
الهرمي (dendrogram)‏ 

يسمح التعنقد الهرمي بالحصول على مجموعات مختلفة من العناقيد من خلال وضع 
حدود (thresholds)‏ مختلفة لحد مسافة الدمج لغرض وضع مستويات مختلفة من تشابه 
البيانات. على سبيل JEL‏ )13 وضعنا حد مساقة الدمج تساوي 1.5 كما هو موضح بالخط 
ا مقطع في الشكل ۱-۸ نحصل على العناقيد, C3 ,)024,8 Co Cor C15‏ والتي تعد عناقيد 
بيانات متشابهة نظرأ لأن مسافة الدمج لكل عنقود هي أصغر من أو تساوي الحد 1.5. 
تشير هذه المجموعة من العناقيد إلى أي الأعطال الآلية تعطي اعراضاً متشابهة لمشكلة 
جودة وحدات المنتج. على سبيل املثال» العنقود Cys‏ يشير إلى أن عطل الآلة الأولى MI‏ 
وعطل الآلة الخامسة MS‏ ينتجان آعراضاً متشابهةٌ لمشكلة جودة وحدات اطنتج. يبين تدفق 
إنتاج وحدات المنتج في الشكل ١‏ -۱ أن وحدات المنتج تمر عبر الآلتين الأولى MI‏ والخامسة 
5 على التوالي ومن ثم هذا يفسر سبب أن عطل الآلة الأولى MI‏ وعطل الالة الخامسة 
5 ينتجان أعراضاً متشابهة لمشكلة جودة وحدات المنتج. ومن ثم فإن العناقيد التي تم 
الحصول عليها عن طريق تحديد حد مسافة الدمج إلى 1.5 تعطي نتيجة عنقودية ذات 
معنى والتي تكشف عن الهيكل اطترابط للنظام. إذا وضعنا حد مسافة الدمج يساوي 2.5 
كما هو موضح بخط مقطع آخر في الشكل ۱-۸ فإننا نحصل على مجموعة من العناقيد. 
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ری و «C3‏ والتي ليست بمستوى فائدة مجموعة العناقيد C2,4,8 C9 C6,2C1,5‏ 
وون) للکشف عن هیکل الستخده. 

یوضح هذا JELI‏ أن الحصول على نتيجة استکشاف البیانات ليست نهاية عملية 
الاستكشاف. فمن الأهمية بمكان أن نتمكن من توضيح نتيجة استكشاف البيانات بطريقة 
ذات معنى في سياق المشكلة اللبحوثة أو المستهدفة لجعل هذه النتيجة مفيدة في مجال 
ونطاق المشكلة. العديد من مجموعات البيانات في العام الحقيقي لا تكون مصحوبة بمعرفة 
مسبقة للنظام الذي قام بتوليد هذه المجموعات من البيانات. ولذلك» بعد الحصول على 
نتيجة التعنقد الهرمي» فمن المهم دراسة مجموعات مختلفة من العناقيد على مستويات 
مختلفة من تشابه البيانات ومن ثم تحديد أي مجموعة من العناقيد يمكن تفسيرها بطريقة 
ذات معنى للمساعدة في الكشف عن النظام وتوليد معرفة مفيدة عن النظام. 


E-A‏ الشجرة غير الرتيبة للتعنقد الهرمي 
(Nonmonotonic Tree of Hierarchical Clustering):‏ 


في الشكل ۱-۸ لا تكون مسافة دمج عنقود جديد أصغر من مسافة دمج أي عنقود تم 
إنشاؤه قبل العنقود الجديد. وشجرة التعنقد الهرمي هذه تكون )4,3 (monotonic)‏ على 
سبیل SLI‏ في الشکل ۱-۸ مسافة دمج العنقود (C2,4‏ هي 1 وهي تساوي مسافة دمج 
2248ء ومسافة دمج ۱2456789 هي 2 والتي هي آصغر من مسافة دمج C248‏ 


7 طريقة ترابط الرکز التوسط مكن أن تنتج شجرة غير رتيبة ( non monotonic‏ 
۵ والتي يمكن أن تكون فيها مسافة الدمج لعنقود جديد أصغر من مسافة الدمج 
لعنقود يتم إنشاؤه قبل العنقود الجديد. الشكل ۲-۸ يظهر ثلاث نقاط بيانات. X39 X2 X1‏ 
GW‏ باستخدامهن تقوم تقوم طريقة المركز المتوسط glp‏ شجرة غير رتيبة للتعنقد الهرمي 
(non monotonic tree of hierarchical clustering)‏ املسافة بين کل زوج من 
نقاط البيانات الثلاثة هي 2. نبدأ بالعناقيد الأولية C3 C2 Cy BW‏ والمحتوية على 
ثلاث نقاط بیانات» X2 X1‏ وو على التوالي. ونظراً GY‏ العناقيد الثلاثة لها السافة نفسها 
بين بعضها البعضء فنختار بشكل عشوائي دمج © C29‏ في عنقود جديد C2‏ كما هو 
موضح في الشكل ۲-۸ فان المسافة بين المركز المتوسط ل 2,,) و x3‏ هي: 1.73= 
12 — 2 والتي هي أصغر من مسافة دمج المساوية 2 C125‏ ومن ثم عندما يتم 
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الجزء ال 


دمج وب ع Cı‏ بعد ذلك لإنتاج عنقود CS‏ مسافة C7235 1.73 3 a‏ 
أصغر من مسافة الدمج C1252‏ الشكل ۳-۸ يوضح الشجرة غير الرتيبة للتعنقد الهرمي 
لنقاط البيانات الثلائة هذه paad‏ طريقة ال مركز المتوسط. 

طريقة الترابط الأحاديء التي تم استخدامها في المثال ۲-۸ تقوم بحساب المسافة بين 
عنقودين باستخدام أصغر مسافة بين نقطتي بیانات, نقطة بيانات واحدة في عنقود واحد. 
ونقطة بيانات أخرى في العنقود الآخر. تستخدم أصغر مسافة بين نقطتي بيانات لتشكيل 
وإنشاء عنقود جديد. المسافة المستخدمة لتشكيل وإنشاء عنقود مسبقاً لا هکن استخدامها 
مرة أخرى لتشكيل عنقود جديد لاحق, OY‏ المسافة تصبح بالفعل داخل عنقود وهناك 
dele‏ إلى مسافة لنقطة بياتات خارج عنقود ما لتشكيل عنقود جديد في وقت لاحق. ومن 
ثم. فان المسافة لتشكيل عنقود جديد في وقت لاحق يجب أن Eb‏ من مسافة م تُستخدم 
من قبل» والتي يجب أن تكون أكبر من أو تساوي مسافة تم اختيارها واستخدامها في وقت 
سابق. ومن ثم. فان شجرة التعنقد الهرمي من طريقة الترابط الأحادي هي Lo‏ رتيبة. 

الشكل (۲-۸) 

مثال على ثلاث نقاط بيانات والتي تنتج لها طريقة ترابط المركز المتوسط شجرة غير رئيسية للتعنقد الهرمي 
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الشکل (۳-۸) 
الشجرة غير الرئيسية للتعنقد الهرمي لنقاط البیانات في الشکل (۲-۸) 


مسافة الدمج 
Merging distance‏ 


0-4 البرمجيات والتطبيقات (Software and Applications)‏ 
يتم دعم التعنقد الهرمي بالعديد من الحزم البرمجية الاحصائية. ا في ذلك: 


SAS ( www.sas.com) 

SPSS ( www.spss.com) 
STATISTICA ( www.statistica.com) 
MATLAB ® ( www.matworks.com) 


هکن العثور على بعض تطبيقات التعنقد الهرمي في الأعمال التالية: ,1997 (Ye,‏ 
Chapter 10; Ye and Salvendy, 1991, 1994; Ye and Zhao, 1996)‏ ,2003. 
في العمل الذي أجراه يي وسالفيندي )1994 (Ye and Salvendy,‏ يتم استخدام التعنقد 
الهرمي للكشف عن التركيبة المعرفية للغة البرمجة مي (C)‏ والموجودة لدى المبرمجين الخبراء 
والمبرمجين المبتدثين. 
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الجزء الثالث 


PER التمارين‎ 

۸ فم بعمل تعنقد هرمي ل ۲۳ سجلاً من سجلات البيانات في مجموعات البيانات 
الدائرية في مكوك الفضاء الواردة في الجدول .8-١‏ استخدم درجة حرارة الإطلاق 
beds (Launch- Temperature)‏ التحقق من التسرب Leak- Check)‏ 
(Pressure‏ كمتغيرات الخاصية, وطريقة التطبيع في المعادلة ۶-۷ للحصول على قيم 
مطبعة لدرجة حرارة الإطلاق وضغط التحقق من التسرب Lad‏ والمسافة الإقليدية 
لسجلات البیانات» وطريقة الترابط الأحادي. 


Y-A‏ كرر التمرين ۱-۸ باستخدام طريقة الترابط الكامل. 


f “= = = 


۶-۸ كرر التمرين Y-A‏ باستخدام طريقة الترابط الكامل. 


0-8 ناقش lod‏ إذا كان ممكناً أو غير ممكن إنتاج شجرة غير رتيبة للتعنقد الهرمي باستخدام 
طريقة الترابط الكامل. 


7-8 ناقش فيما إذا كان تك شجرة غير رتيبة للتعنقد الهرمي باستخدام 
طريقة الترابط المتوسط 
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٩‏ التعنقد ند حول 1- 77 والتعنقد القائم على الكثافة 
K-Means Clustering and Density—Based Clustering‏ 


يستعرض هذا الفصل خوارزميات التعنقد حول - K- Means) huga‏ 
(clustering‏ والتعنقد القائم على الكثافة (Density- Based Clustering)‏ والتي 
ينتج عنها مجموعات غير هرمية من سجلات البيانات امتشابهة. باستخدام المركز المتوسط 
(centroid)‏ والكثافة (density)‏ لعنقود do‏ على التوالي. وسيتم سرد AEG‏ بحزم البرمجيات 
التي تدعم خوارزميات التعنقد هذه. وسيتم سرد قائمة لبعض تطبيقات خوار زميات التعنقد 
مع مراجعها. 


:(K-Means Clustering) متوسط‎ -K التعنقد حول‎ 1-4 


يرد في الجدول ۱-۹ خطوات خوارزمية التعنقد حول 1-متوسط. تبدأ خوارزمية التعنقد 
حول -متوسط بقيمة معينة KJ‏ والقيم الأولية امُستده للمراكز ابلتوسطة والخاصة بعدد 
K‏ من العناقيد. وتستمر الخوارزمية بجعل كل سجل من سجلات البيانات التي عددها 7 
في مجموعة البيانات تنضم إلى أقرب عنقود لها وتحديث المراكز المتوسطة للعناقيد حتى لا 
تتغير قيم امطراکز المتوسطة للعناقيد بعد tld‏ ونتيجة لذلك لا ينتقل كل سجل بيانات من 
عنقوده الحالي إلى عنقود آخر. في الخطوة ۷ من الخوارزمية. إذا كان هناك أي تغيير على 
قيم المراكز المتوسطة للعتاقيد في الخطوات من ۳ إلى ۰1 فيتعين علینا معرفة ما إذا كان 
التغيير على قيم اللراكز المتوسطة للعناقيد يتسبب في المزيد من التنقل GY‏ سجل بيانات 
من خلال العودة إلى الخطوة ۲. 

لتحديد أقرب عنقود إلى سجل بیانات» فإن المسافة من سجل البيانات إلى عنقود 
البيانات تحتاج إلى أن يتم حسابها. وغالباً ما يتم استخدام المتجه المتوسط لسجلات البيانات 
في عنقود ما كمركز متوسط للعنقود. باستخدام مقياس للتشابه أو الاختلاف نقوم بحساب 
السافة من سجل البيانات إلى المركز المتوسط للعنقود لتمثل المسافة من سجل البيانات إلى 
العنقود. ويمكن الرجوع إلى فصل ۷ للحصول على وصف واف طقاييس التشابه والاختلاف. 
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الجزء لالت 


إحدى الطرق لإسناد قيم HEA‏ للمراكز المتوسطة الخاصة بعدد K‏ من العناقيد 3 
باختيار عدد K‏ من سجلات البيانات عشوائياً من مجموعة البيانات واستخدام سجلات 
البيانات هذه لبناء قيم المركز المتوسطة ل 6 من العناقيد. على الرغم من أن هذه الطريقة 
تستخدم سجلات بيانات محددة لبناء قيم المراكز المتوسطة KS‏ من العناقيد. إلا أن ال 
-عنقود لا يوجد بها سجل بيانات واحد في كل منها في البداية. هناك Lal‏ طرق أخرى 
لإعطاء قيم أولية للمراكز المتوسطة الخاصة ب K‏ من العناقید. مثل استخدام نتيجة التعنقد 
الهرمي للحصول على عدد K‏ من العناقيد واستخدام المراكز المتوسطة لهذه العناقيد كمراكز 
متوسطة أولية الخاصة ب K‏ من العناقيد لغرض استخدامها في خوارزمية التعنقد حول -K‏ 
متوسط. 

بالنسبة إلى مجموعة بيانات كبيرة في الحجم. فإن شرط التوقف لتعليمة التكرار 
(REPEAT-UNTIL)‏ في الخطوة رقم ۷ من الخوازمية يمكن أن يتم تحقيقه. بحيث 
تتوقف تعليمة التكرار عندما يكون مقدار التغييرات للمراكز المتوسطة أقل من حد معين, 
على سبيل ابلثال, أقل من XO‏ من سجلات البيانات التي تغير عناقيدها المحتوية لها. 


(3-9) الجدول‎ 
خوارزمية التعنقد حول -متوسط - (إنجليزي وعربي)‎ 
Description 
Set up the initial centroids of the K clusters 
REPEAT 
FOR i=1 ton 


Compute the distance of the data point x; to each of the K clusters using 
a measure of similarity or dissimilarity 
IF x, is not in any cluster or its closest cluster is not its current cluster 
Move x; to its closest cluster and update the centroid of the cluster 
UNTIL no change of centroid clusters occurs in Steps 3-6 


YEA‏ استکشاف البيانات: نظريات وخوار زميات وأمثلة 


خوار زميات اف bul‏ العنقود والاقتران 


الخطوة الوصف 
١‏ قم بتجهيز المراكز المتوسطة الأولية تعدد K‏ من العناقيد. 
Y‏ كرر (REPEAT)‏ 
كرر (FOR)‏ ابتداء من i=l‏ لی . 
قم بحساب المسافة من سجل البيانات :× إلى كل العناقيد التي عددها K‏ 


3 
باستخدام مقياس التشابه أو الاختلاف. 
1 إذا (IF)‏ مم تكن axe‏ أي عنقود أو أن أقرب عنقود لها ليس هو عنقودها 


الحالي. 

1 قم بنقل إلى أقرب عنقود وقم بتحدیث المركز المتوسط للعنقود. 

حتی (UNTIL)‏ الوقت الذي لا يحدث به تغير في المراكز التوسط للعناقید في 
الخطوات -Y‏ 


تقلل خوارزمية التعنقد حول - متوسط من مجموع الأخطاء التربيعية sum Of)‏ 
(squared errors-SSE‏ التالية أو المسافات بين سجلات البيانات وال مراكز المتوسطة 
للعناقيد )10 (Ye, 2003, Chapter‏ : 


K 
SSE = 2 ) “ج47‎ 


1-1 260 


في المعادلة 1-4, يتم استخدام المتجه المتوسط لسجلات البيانات في العنقود Ci‏ باعتباره 
المركز المتوسط للعنقود لحساب المسافة بين سجل بيانات في العنقود «Cj‏ والمركز التوسط 
للعنقود Ci‏ 

حيث إن التعنقد حول -K‏ متوسط يعتمد على المعلمة K‏ فقد تساعد المعرفة بمجال تطبيق 
الخوارزمية على اختيار قيمة مناسبة ل لكى تكون نتائج الخوارزمية ذات معنى ومفيدة 
في مجال تطبيقها. ويمكن الحصول على نتائج مختلفة من تطبيق الخوارزمية عن طريق 
استخدام قيم مختلفة ل × بحيث يكن مقارنة نتائج تطبيق الخوارزمية. 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳:۹ 


الجزء الثالث 


أطثال )4-9( 

استخرج عناقيد حول 0- متوسطات بلجموعة بيانات اكتشاف أعطال النظام في الجدول 
۲۹ باستخدام المسافة الإقليدية كمقياس للاختلاف. وهذه هي نفس مجموعة البيانات 
للمثال .١-8‏ وتحتوي مجموعة البيانات تسع حالات من الأعطال الآلية الأحادية. وسجل 
بيانات لكل حالة لها متغيرات الخاصية التسعة عن جودة وحدات المنتج. 

في الخطوة ۱ من خوارزمية التعنقد حول - متوسط. نقوم بشكل عشوانی باختيار 
سجلات البيانات ol‏ 3 5, 7 و9 لتجهيز المراكز المتوسطة الأولية للعناقيد الخمسة C7 Cy‏ 
Cs9 C4 C3‏ على التوالي: 


الجدول )4-¥{ 
مجموعة البيانات لاكتشاف أعطال النظام بتسع حالات من الأعطال الآلية الأحادية 


رقم الحالة - Instance‏ متغيرات الخاصية عن جودة وحدات اطنتج 
(الآلة العطلة ¬ Attribute Variables about Quality of Faulty‏ 
tare. x (Machine‏ 
(M1)‏ 1 
2(M2)‏ 
3{M3)‏ 
4(M4)‏ 
5(M5)‏ 
6(M6)‏ 
7(M7)‏ 
8(M8)‏ 
9(M9)‏ 


4 
۳ 
ل 


© 


o off‏ شاه وه ه هو ه ه 
off‏ = ه و وه ه هب ه هچ 


O O co - O © 0 —‏ سس 
oroaoe--—-— oF‏ 
Oe OH‏ = يدم O O m‏ 
اه oco= 99- o‏ 
— نما هن و ناه 

cocoa o o =| 


oo cv oOo = oO CO مب‎ 


yo-‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات لاستكشاف bul‏ العنقود والاقتران 


= و = 


Bee ست‎ ROO f 


1 
0 
0 
0 
Xo, = 7 = 1 * = x3 = 
0 
1 
0 
1 


il 

3 

۱ 
| ۵ ه ه ه ه ه سر ه ه 
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لا تحتوي العناقيد الخمسة على سجلات بيانات في كل منها في البداية. ومن ثم. لدينا 
C=} C=} C=} C=}‏ و C=}‏ 

في الخطوات ۲ و۳ من الخوارزميةء نأخذ سجل البيانات الأول × من مجموعة البيانات. في 
الخطوة ٤‏ من الخوارزمية, نقوم بحساب المساقة الإقليدية لسجل البيانات :2 إلى كل من 


العناقيد الخمسة: 
d(x1,%¢,)‏ 
2 -1) + 0(2 - 0) + ?)1-1( + 0(2 - 0( + ?)1 -1)+0(2 - 0) + 0(2 - 0( + ?)0 - 0( + }40-1 = 
0= 
d(x1,%¢,)‏ 
f(1 - 0(2 + (0-0) + )0 - 1(2 + (0 - 1(2+)1 - 0 + (0-1)? + (1 - 1(2 + (0 - 1} + (1-07‏ = 
2.65 = 
d(x,,%¢,)‏ 
2 -1) + 0(2 - 0) + 1(2 - 1( + 0(2 - 0) + 1(2 — 01+*(0 - 0( + ?)0 —0( + ?)0-0( + ?)1-0( = 
1= 
d(x Xe)‏ 
J0 — 0)? + (0 - 0(2 + (0 ~ 0)? + (O — 0° +01 ~ 0(2 + )0 - 0(2 + (1 — 1)2 + )0 - 0(2 + )1- 2‏ = 
1.73 = 
d(x1,%c,)‏ 


استكشاف البیانات: نظريات وخوارزميات وأمثلة yoy‏ 


الجزء الثالث 
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= 1.73 

في الخطوة ۵ من الخوارزمية. /× لا يتواجد في أي عنقود. يتم تنفيذ الخطوة ‏ من الخوارزمية 

لنقل xy‏ إلى أقرب عنقود لها وهو Cr‏ والذي لا يزال مركزه المتوسط هو نفسه. وذلك لأن مركزه 

Cy > { } C3 = { } C? = { } C= {xı} لدينا الآن‎ x} المتوسط تم تجهيزه باستخدام‎ 
Cs و()<‎ 


بالعودة إلى الخطوة ۳. نقوم بأخذ سجل البيانات الثاني 2× من مجموعة البيانات. في الخطوة 
٤‏ نقوم بحساب المسافة الإقليدية لسجل بيانات 2+ إلى كل من العناقيد الخمسة: 

d(x2,Xc,) 

= 2.65 


d(x2,X¢,) 
= §(Q— 0)? + (1 = 0)? + (0 ~ 1)? + (1 — 1)? +0 — 0)? + (0 — 1)? + (0-1)? + (1 - 1} + )0 - 2 
=2 


d(x2,X¢,) 
= 00ل‎ 0? + 0) + )0 0)? + 1 -0(2+]0- 177770 -0(*+7 0-17: FO + 0-97 
= 2.45 


d(x2,%¢,) 
= ¥ (0-0) + (1 — 0)? + (0 - 0)? + (1 ~ 0° +(0 - 0)? + (0-0)? + (0 — 1)? + )1 - 0)? + (0 - 0)2 


=2 
d(x2,%¢,) 


?)0-1( + 0(2 -1) + 0(2 - 0) + ?)0 - 0( + ?)0 — 0)+0(2 - 1( + }0 - 0) + 0(2 - 1) + ?)0 ~ 0) لي = 
2= 


ror‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات لاستكشاف bli‏ العنقود والاقتران 


في الخطوة ه لا یتواجد سجل البیانات 2× في أي عنقود. يتم Las‏ الخطوة 7 من 
الخوارزمية. من بين العناقيد الثلاثة. Ca C2‏ ود والتي تعطي أصغر مسافة ل ره نقوم 
C2 slash‏ بشکل عشواني ونقل 2× إلى C2‏ العنقود C2‏ يحتوي على سجل بیانات واحد 
فقط هو Xz‏ ویتم تحدیث الرکز التوسط ل 2) من خلال أخذ 2× کمرکزها التوسط: 


x 
oO 
N 
| 
مج درت درن هو مان‎ 


.Cs={} و‎ Cou {Co (6 = {x} Cre (x7) لدينا الآن‎ 


بالعودة إلى الخطوة ۳ نأخذ سجل البيانات الثالث :دمن مجموعة البيانات. في الخطوة E£‏ 
نقوم بحساب المسافة الإقليدية لسجل البيانات :نا إلى كل من العناقيد الخمسة: 


d(xs,Xc,) 
= 2.65 
d(x3,%c) 
=2 


استکشاف البیانات: نظريات وخوارزميات وأمثلة yor‏ 


الجزء الثالث 
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d(x3,%,) 
= 5-0۳۲۲۲۳7۲-۲۲0 
= 2.45 


d(x3,%c,) 
= 00و‎ - 0) + (0-0)? + (7-0)? + C1 — 0)7+(0 — 0)? + (1 - 0)? + )1 = 1)? + (1-0)? + )0- 2 
=2 


d(x3,%¢,) 

= (0 - 0)? + (0-0) + )1- 0(2 + )1- 0)? +(0 - 0)? + (1 — 0)? + (ã — 0)? + (1 — 0)? + )0 - 1)? 

= 2.45 

في الخطوة Y O‏ يتواجد سجل البيانات وقي أي عنقود. يتم تنفيذ الخطوة 7 من الخوارزمية. 
من بين العنقودین» Cay C2‏ والتي تعطي أصغر مسافة ل x3‏ نقوم بشكل عشواني باختيار 


C2‏ ونقل 3< إلى C2‏ العنقود C2‏ يحتوي على سجلي بيانات 2× و ود ويتم تحديث اطرکز 
ا متوسط ل 2): 


Yot‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات لاستكشاف أنماط العنقود والاقتران 


اجن عم ا ETE‏ دص 55 


1 
Xe, =| | =| 0 


لدينا الآن C= {x02} Cy = {x7}‏ ! 1 - و ( 1 - وناء و ( 1 - 05 . 


بالعودة إلى الخطوة ۳ نأخذ سجل البيانات الرابع X4‏ من مجموعة البيانات. في الخطوة ٤ء‏ 
نقوم بحساب المسافة الإقليدية لسجل البيانات x4‏ إلى كل من العناقيد الخمسة: 


d(x4,%c,) 
= {O DF + (O O) + 0-0 + (1 — 00-1)" + 0-0)? + (O 172 + )1-0(2 + )0 - 12 


= 2.45 
d(x4,Xc,) 


= (0 — 0)? + (0 — 0.5)? + (0 ¬ 0.5)? + (1 — 1)2+(0 = 0)? + (0 — 0.5)? + (0 — 0.5)? + (1 — 1)? + (0 — 0)? 


استكشاف البيانات: نظريات وخوارزميات وأمئلة roo‏ 


d(x4,%c,) 
= {O 0 + (O = 0) + (0-0)? + )1- 0 HO - 1)" + (0 - 0(3 + (O 1)" + )1- 0(7 + 10-15 
= 2.24 


d(x4,%c,) 
= 0)ي‎ ¬ 0} + (0-0)? + (0 — 0)? + (1 — 0)? +(0 — 0(2 + (0 — 0)? + (0 — 1)? + (1 — 0)? + (0 — 0)2 
= 1.73 


d (x4, Xc) 


= (@- 0) + )0- 0(2 + (O - 0) + (1 — 0)*+(0 - 0)? + (O - 0) + )0- 0(2 + )1- 0(7 + 60-13 
= 3 


في الخطوة 0 Y‏ يتواجد سجل البيانات 4 في أي عنقود. يتم تنفيذ الخطوة 7 من الخوارزمية 
لنقل 24 إلى أقرب عنقود له وهو C2‏ ویتم تحديث المركز المتوسط ل 02): 


yo!‏ استكشاق البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات مت bul‏ العنقود والاقتران 


C5 ={} 3: C4={} ونا‎ - {C2 = ( x2003, x4} Ci = fx لدينا الآن‎ 


بالعودة إلى الخطوة ۳. نأخذ سجل البيانات الخامس Xs‏ من مجموعة البيانات. في 
الخطوة > نعلم أن x5‏ هو الأقرب إلى ) حيث أنه تم تشكيل C3‏ في البداية باستخدام و6 
by‏ يتم تحديثه منذ ذلك الحين. في الخطوة ۵ لا يتواجد ء× في أي عنقود. يتم LAS‏ الخطوة 
7 من الخوارزمية لنقل Xs‏ إلي أقرب عنقود له وهو C3‏ والذي لا يزال مركزه المتوسط هو 


. و 1 = +20[ ]= ون‎ {xs} C2= ) ,تمه‎ x4} Cr = {x} لدينا الآن‎ 


استكشاف البیانات: نظريات وخوارزميات وأمثلة Yov‏ 


pea | الجزء‎ 


بالعودة إلى الخطوة ۳ نأخذ سجل البيانات السادس X6‏ من مجموعة البيانات. في الخطوة 
٤ء‏ نقوم بحساب المسافة الإقليدية لسجل البيانات 26 إلى كل من المجموعات الخمسة: 


d(x¢,Xc,) 
= (0-1)? + (O - 0(2 + 0-0)? + 0-0) 0-1)" + 0) FU 1F+ )0- 0(2 +O 1) 
=2 


d(x¢,Xc,) 
a {0 — 0)? + (0 ~ 0.33)? + (0 — 0,33)? + (0 — 1)#+(0 - 0)? + )1- 0,33(2 +01 = 0.33}? +{0— 1)? + {0 - 0)? 
= 1.77 


d(x, Xc) 
= -0)ي‎ 0(2 + )0 - 0(2 + )0 - 0(2 + )0 - 0(2+00- 1(2 + (1 = 0(2 + )1 -1(2 + )0 - 0(2 + )0- 27 
= 1.73 


d(x6,%c,) 

= f(0 - 0)? + (0 - 0)? + )0 - 0)? + (0 - OF +0 - 0(2 + (1 ~ 0)? + )1 - 1(2 + )0 - 0)? + (0 ¬ 0(۶ 
=1 

d(x¢,%c,) 

= /(0 = 0)? + (0 - 0)? + (0 - 0)? + (0 — 0) +(0 - 0)? + (1 — 0)? + (1 — 0)? + (0 — 0)? + (0 - 2 


= 1.73 


في الخطوة ۵ لا يتواجد سجل البيانات 6× في أي عنقود. يتم تنفيذ الخطوة T‏ من الخوارزمية 
لنقل ۲6 إلى أقرب عنقود له وهو 4) ويتم تحديث المركز اللتوسط ل 4): 


YOA‏ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوارزمیات | سح bui‏ العنقود والاقتران 


af 


x 
nN 
جر‎ 
I! 
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. ونا( ) - ون‎ - {x6 KC - {x5} C2= 1 x2003, X4} Cr = {x7} الآن‎ Low 


بالعودة إلى الخطوة Job Y‏ سجل البيانات السابع 7× من مجموعة البيانات. في الخطوة 
> نقوم بحساب المسافة الإقليدية لسجل البيانات 7* إلى كل من العناقيد الخمسة: 


d(x, Xc) 
(0 = 1) + 0-0 + (O - 0(2 + )0 - 0(24+)0 - 1)? + (0 - 0(2 +0- 1(* + (O - 0) + )0- 2 
= 1.73 


d(x7,%¢,) 


= §(0 - 0)? + (0 - 0.33)? + (0 — 0.33)? + (0 - 1)#+(0 — 0)? + (0 - 0.33)? + (1 — 0.33)? + (0 - 1)? + (0 - 0)? 


= 1.67 


d(x, c) 
= )0-0(* + )0 = 0(2 + (O - 0(2 + (O - 0(2 200-172 + — 0(2 + )1-1(: (O 0(: + 0-5 
= 41 


d(x;,X¢,) 


استكشاف البيانات: ys‏ یات وخوار زمیات ra italy‏ 


= (0 — 0)* + {0 — 0)2 + (O - 0(2 + (0 - 0(2+)0 - 0(2 + )0 - 1(2 + (1 — 1) + )0 -0(2 + (0 — 2 


=1 


d(x, Xc) 


= f(0 — 0)? + )0 - 0(2 + (0 - 0)? + )0 - 0)?+(0 — 0)? + )0 - 0)? + (1 — 0)? + (0 — 0)? + )0 - 1)? 

= 141 

في الخطوة ۵ لا يتواجد سجل البيانات 7× في أي عنقود. يتم تنفيذ الخطوة T‏ من الخوارزمية 
لنقل 7× إلى أقرب عنقود له وهو Cs‏ ويتم تحديث الرکز المتوسط :C4J‏ 


0+0 
EJ 

0+0 
E9 

0+0 
EA 

0+0 
E 

O+0)_ 


Cs = 1۱۳4 = { x6, X7} C3 = {x5} C2 = 1 X2003, x4} Cr = {x7} OVI لدينا‎ 
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استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ ۳۹۰ 


خوارزمیات لاستکشاف buh‏ العتقوة والاقتران 
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بالعودة إلى الخطوة ۳. نأخذ سجل البيانات الثامن :2 من مجموعة البيانات. في الخطوة 
E‏ نقوم بحساب السافة الإقليدية لسجل البيانات 8× إلى كل من العناقيد الخمسة: 


d(xe Xc) 
= (=D? + 0-0) +O rO rO r0 F0 a O 
= 2.27 


dxa, cz) 
(0 — 0)? + (0 — 0.33)? + (0 - 0.33)? + (0 - 1)?+(0 - 0)? + (0 — 0.33)? + (0 — 0.33)? + (1 - 1} + (0 - 0)? 


= 1.20 


d (xg, Xc,) 
= J (0 ~ 0)? + (0 - 0)? + (0 - 0(2 + (0 - 0)*+(0 — 1)? + (0-0)? + )0-1(* + )1- 0(2 + )0 1)? 


=2 
d(x», Xe) 


= 0-0 + )0 - 0)? + )0 = 0(2 + (0 = 0(2+)0 — 0(2 + (0 ¬ 0.5)? + )0 - 1(2 + )1-0(*+ )0 - (۶ 
=15 


d(xa,Xc,) 


= (0 - 0)? + (0 — 0(2 + (0 — 0(2 + (0 — 0} +0 — 0)? + (0 - 0(2 + )0 - 0(2 + (1-0)? + )0 - 1۶ 
= 1.41 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۹ 


الجزه الثالث 


ae 3‏ ۵ لا يتواجد سجل البیانات ۾× في ۲ عنقود. يتم تنفيذ ۳ 7 من الخوارزمية 
لنقل 8< إلى أقرب عنقود له وهو C2‏ ويتم تحديث المركز امتوسط ل 2): 


0+0+0+0 
4 

1+ 0+00 
4 

0+1+0+0 


4 
0 0+ 1+1+1 
05 ال نمه 


4 
- ]0+0+0+0 5 
5 4 ios 
0+1+0 +0 025 
4 
0+1+0+0 
4 
و‎ 
4 
0+0+0+0 
4 


={} Cea { x6, x7} C3 = { x5 } e C2 = { x203, x4, X8} Cr = {x1} لدينا الآن‎ 
. C3 


بالعودة إلى الخطوة Y‏ نأخذ سجل البيانات التاسع X9‏ من مجموعة البيانات. في الخطوة & 
نعلم أن و× هو الأقرب إلى Cs‏ لأنه تم إنشاء Cs‏ باستخدام bg X9‏ يتم تحديثه منذ ذلك 
الحين. في الخطوة 0. لا يتواجد ولا في أي عنقود. يتم تنفيذ الخطوة 7 من الخوارزمية لنقل 
x9‏ إلى أقرب عنقود له والذي لا يزال مركزه المتوسط هو نفسه. 


rir‏ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوار زميات لاستكشاف bial‏ العنقود والاقتران 


لدینا الآن C2 = { X23, X4, 3 = {x}‏ ء ( {Xs‏ = جناء [27 x6,‏ { = وناء } C5 = { x9‏ . 
بعد 00 من تنفیذ تعليمة (FOR)‏ في الخطوات 1-۳ نذهب إلى الخطوة ۷. نظراً 
ov‏ هناك تغييرات على اطرکز المتوسط للعنقود في الخطوات A-Y‏ نعود إلى الخطوة ۲ ثم 
الخطوة ۳ لبدء sae‏ آخر لتعليمة (FOR)‏ في تعليمة (FOR)‏ هذه يكون العنقود الحالي 
لكل Jew‏ بيانات هو العنقود الأقرب لسجل البيانات. ومن ثم فإنه لا ينتقل سجل من 
سجلات البيانات التسعة من عنقوده الحالي إلى عنقود آخرء ولا يحدث أي تغيير للمركز 
المتوسط للعنقود في تعليمة (FOR)‏ هذه. إن العناقيد حول O‏ متوسطات في هذا JELI‏ 
ينتج عنها © عناقید X6, X7} C3 = {xs } < C2  ) x203, x4, Xa} ) = {x1}‏ 1 = 
4 و } Cs = {x9‏ . وينتج التعنقد الهرمي لنفس مجموعة البيانات في الشكل ۱-۸ خمس 
عناقيد, xs}‏ وريد ed‏ [ وید of X2, Xe,‏ ( وعد X7} of‏ ,م ) d xolg‏ عندما وضعنا Gluck lao‏ 
الدمج تساوي القيمة 1.5. من ثم فإن نتائج التعنقد حول © متوسطات متشابهة ولكنها 

ليست بالضبط نتائج التعنقد الهرمي نفسه. 


۲-۹ التعنقد القائم على الكثافة «(Density-Based Clustering)‏ 


يعد التعنقد القائم على الكثافة أن عناقيد البيانات عبارة عن مناطق سجلات البيانات 
بكثافة عالیة. والتي يتم قياسها باستخدام عدد سجلات البيانات داخل نصف قطر محدد 
(Li and Ye, 2002)‏ يتم فصل العناقید حسب مناطق سجلات البیانات المنخفضة الكثافة. 
الخوارزمية (Ester et al., 1996) DBSCAN‏ عبارة عن خوارزمية التعنقد القائم على 
الكثافة التي تبدأ مجموعة من سجلات البیانات ومعلمتین (two parameters)‏ هما: 
نصف القطر والحد الأدنى من عدد سجلات البیانات املطلوب لتشکیل عنقود واحد. يتم 
حساب كثافة سجل البیانات × عن طریق حساب عدد سجلات البیانات داخل نصف قطر 
سجل البیانات × O|‏ منطقة x‏ تمثل الساحة داخل نصف قطر x‏ والتي يتم اعتبار أن لها 
منطقة كثيفة إذا كان عدد سجلات GELS)‏ في النطقة x‏ أكبر أو يساوي الحد الأدنى من عدد 
سجلات البیانات. ‏ البدايةء يتم اعتبار جمیع سجلات البیانات في مجموعة البیانات غير 
معلمة. تختار خوارزمية التعنقد القائم على الكثافة ( (DBSCAN‏ بصورة عشوائية سجل 
بیانات غير معلم × من مجموعة البیانات. إذا كانت منطقة سجل البیانات × غير كثيفةء يتم 
وضع dalle‏ على سجل البیانات x‏ باعتباره Jaw‏ ضوضاء (noise data point)‏ إذا كانت 
منطقة × ARES‏ بي ال جره وجا توي عل د ورت وب REET E E‏ 


استكشاف البيانات: نظريات وخوارزميات وأمثلة rw‏ 


الجزء الثالث 


a‏ في هذا 5۳ الجديد. علاوةٌ على ذلك. ينضم US‏ من سجلات البيانات الأخرى 
والموجودة في منطقة × إلى العنقود ويتم وضع علامة عليه بوصفه عضواً في هذا العنقود إذا 
لم يكن سجل البيانات هذا قد انضم بعد إلى أي عنقود. يتم توسيع هذا العنقود الجديد 
ليشمل جميع سجلات البيانات التي 6 تنضم بعد إلى عنقود معين والتي تكون في المنطقة 
الخاصة بسجل بيانات معین. وليكن 2 والذي هو موجود في العنقود إذا كانت منطقة Z‏ 
كثيفة. ويستمر التوسع في العنقود حتى تنضم جميع سجلات البيانات المتصلة من خلال 
المناطق الكثيفة لسجلات البیانات إلى العنقود إذا ۸ تكن قد انضمت بعد إلى العنقود. 
نلاحظ أن سجل بيانات الضوضاء قد يكون موجوداً في وقت لاحق ف المنطقة الكثيفة لسجل 
بيانات معين في عنقود آخرء ومن ثم يمكن تحويله إلى عضو في ذلك العنقود. بعد اكتمال 
العنقود, تختار خوارزمية التعنقد القائم على الكثافة (DBSCAN)‏ سجل بيانات آخر غير 
معلّم وثقیم الخوارزمية ما (ذا كان سجل بيانات هذا عبارة عن سجل ضوضاء أو سجل 
بيانات يتم البدء به لبناء عنقود جديد. وتستمر هذه العملية حتى يتم تعليم كافة سجلات 
البيانات في مجموعة البيانات إما كسجل ضوضاء أو كعضو في عنقود. 

Goll أن التعنقد القائم على الكثافة يعتمد على معلمتين هما نصف القطر والحد‎ Le 
لعدد سجلات البیانات» فإن المعرفة بمجال التطبيق المبحوث والمستهدف قد يساعد على‎ 
اختيار قيم مناسبة للمعلمتين للحصول على نتيجة تعنقد ذات معنى في مجال التطبيق.‎ 
ويمكن الحصول على نتائج تعنقد مختلفة باستخدام قيم معلمات مختلفة بحيث يمكن‎ 
مقارنة النتائج المختلفة وتقييمها.‎ 


۲-۹ البرمجيات والتطبيقات :(Software and Applications)‏ 
تم دعم استخدام التعنقد حول - متوسط في كل من البرمجيات التالية: 
e WEKA (hitp://www.cs.waikato.ac.nz/ml/weka/)‏ 
MATLAB (www.matworks.com).‏ » 
e SAS (www.sas.com).‏ 
يمكن الحصول على تطبيق واستخدام خوارزمية التعنقد القائم على الكثافة (DBSCAN)‏ 
للبيانات )43154 (spatial data)‏ في )1996 (Ester et al.,‏ 


vt‏ استکشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات لاستكشاف أنماط العنقود والاقتران 


:(ŒExercises) التمارين‎ 


۲-۹ من سجلات البيانات في الجدول‎ (2-means) استخرج تعنقداً حول متوسطين‎ ١-9 
باستخدام المسافة الإقليدية كمقياس للاختلاف وياستخدام سجلات البيانات الأولى‎ 
والثالثة لتجهيز المراكز المتوسطة الأولية للعنقودين.‎ 


Y-A‏ استخرج التعنقد القائم على الكثافة لسجلات البيانات في الجدول ۲-۹ باستخدام 
المسافة الإقليدية كمقياس للاختلاف» ويكون 7.5 هو نصف القطر و2 هو الحد الأدلى 
لعدد سجلات البيانات المطلوبة لتشكيل عنقود معين. 


۹ استخرج التعنقد القائم على الكثافة لسجلات البيانات في الجدول ۲-۹ باستخدام 
المسافة الإقليدية كمقياس للاختلاف» ويكون 2 هو نصف القطر و2 هو الحد الأدنى 
لعدد سجلات البيانات المطلوبة لتشكيل عنقود معين. 


۹ استخرج تعنقداً حول - متوسطات ل ۲۳ سجل من سجلات OLUJI‏ في مجموعة 
البيانات الدائرية في مكوك الفضاء الواردة في الجدول ۲-۱. قم باستخدام درجة حرارة 
الإطلاق (Launch- Temperatue)‏ وضغط التحقق من التسرب Leak-Check)‏ 
(Pressure‏ باعتبارها متغيرات الخاصية ودالة التطبيع في المعادلة ۷-> للحصول على 
på‏ مطبعة لدرجة حرارة الإطلاق وضغط التحقق من التسرب Lad‏ والمسافة 
الإقليدية كمقياس للاختلاف. 


0۹ کرر التمرين 6-5 باستخدام مقياس تشابه جيب التمام (جتا) ( cosine similarity‏ 
(measure‏ 
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خوار زمیات | لاستكشاف bial‏ العنقود والاقتران 


۰- خريطة طة تیم الذاني 
Self-Organizing Map - SOM‏ 


يستعرض هذا الفصل خريطة التنظيم الذاتي )— Self — Organizing MAP‏ 
(SOM‏ والتي تقوم على أساس ابلعمارية الخاصة بالشبكات العصبية الصناعية (ANN)‏ 
وتستخدم خربطة التنظيم الذاتي لغرض عنقدة وتصوير البيانات. تم سرد قائمة من حزم 
البرمجيات الخاصة بخريطة التنظيم الذاي (SOM)‏ إلى جانب المراجع للتطبيقات. 


۰ خوارزمية خريطة التنظيم الذاق (Algorithm of Self-Organizing Map)‏ 
طور كونين (Kohonen)‏ سنة ۱۹۸۲م خريطة التنظيم الذاتي (SOM)‏ وهي عبارة عن 
شبكة عصبية صناعية (ANN)‏ بعقد مخرجات (output nodes)‏ مرتبة ومنظمة في فضاء 
يحتوي على © - من الأبعاد. وتُسمى هذه الشبكة بخريطة اللخرجات output map)‏ أو 
الرسم البيان (graph)‏ وعادةٌ ما يستخدم فضاء أحادي أو J‏ أو ثلا abe)‏ أو ترتيب 
معين لعقد المخرجات. كما هو مبين في الشكل ۰ ومن ثم يكون من الممكن تصور 
وتخيل عناقيد سجلات البیانات لأنه يتم تمثيل السجلات المتشابهة على شكل (nodes) sis‏ 

قريبة من بعضها البعض في خريطة المخرجات. 

في أي خريطة تنظيم ذاتي (SOM)‏ يتم ربط كل متغير من متغيرات المدخلات. i= Xj‏ 
ط,... ,1ء بكل عقدة في خريطة التنظيم الذاتي J= 1, ...,۸ j (SOM)‏ مع وزن لهذا الارتباط 
يرمز له ب ز۷. يتم حساب متجه (output vector) Sle abt‏ « ويرمز له ب 0 الخاص 
بخريطة التنظيم الذاتي dork (SOM)‏ مدخلات معطى x‏ على النحو التالي: 


t 
= 1 = wx ۲ )۱۱۰( 
0j WX 


استكشاف البيانات: نظریات وخوارزمیات وأمثلة rv‏ 


الشكل (۱۰۱۰) 
التصاميم الخاصة بخريطة التنظيم الذاتي (SOM)‏ بخريطة مخرجات (a)‏ أحاديةء (D)‏ ثنائيةء 
و(0) وثلائية الأبعاد 


من بين جميع عقّد الخرجات تُسمى عقدة المخرجات التي تعطي أكبر doch dad‏ 
مدخلات معطى × بالعقدة الفائزة (winner node)‏ يكون للعقدة الفائزة الخاصة بمتجه 


a As ىلس22‎ OS LES LE TE 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ yu 


خوار زميات لاستكشاف bul‏ العتفود. ولاقتران 


المدخلات متجه وزن أكثر ممائلة ومشابهة لتجه اطدخلات. تحدد خوارزمية التعلم لخريطة 
التنظيم الذاني (SOM)‏ أوزان الارتباط بحيث تكون العقّد الفائزة متجهات المدخلات 
المتشابهة قریبة بعضها من بعض. يوضح الجدول ۱-۱۰ خطوات خوارزمية التعلم لخريطة 
التنظیم الذاتي (SOM)‏ إذا كان لدينا مجموعة بيانات تدريبية أو استكشافية بعدد 7 من 
blä‏ البيانات» ند ۸,... ,1 d=‏ 

3 الخطوة ۵ من الخوارزمية» يتم تحدیث أوزان الارتباط للعقدة الفائزة doch‏ الدخلات 
xi‏ والعةّ a‏ المجاورة من العقدة الفائزة لجعل أوزان العقدة asta‏ والعمّد المجاورة لها أكثر 
Aisles‏ ومشابهة طتجه اطدخلات» ومن ثم جعل هذه العقد تقوم تقوم بإنتاج مخرجات أكبر 
طتجه المدخلات. يمكن تعريف دالة الجوار »,7 والتي تحدد مدى قرب العقدة j‏ إلى 
العقدة الفائزة © ومن ثم أهلية العقدة رلتغبیر الوزن» بطرق عديدة. أحد الأمثلة على دالة 
الجوار (1.6: 


1 iflg- r| > B0 


0 otherwise 


)۲-۱۰( 


fo) =f 


حيث Fj‏ وء7 هي إحداثيات العقدة f‏ والعقدة الغائزة © في خريطة الخرجات. وتمثل Bei)‏ 
قيمة الحد التي تقيد مدى الجوار من العقدة الفائزة C‏ 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۹ 


الجزء الثالث 


الجدول (۱-۱۰) خوارزمية التعلم لخريطة التنظيم SOM) iN‏ - (إنجليزي وعربي) 


Description 
Initialize the connection weights of nodes with random positive or negative values, 
(= [walt) ٠ 2 وت‎ (t= 0,j=1,..,k 
REPEAT 
FORi=1ton 
Determine the winner node ع‎ for x; c= angmax w (t) x; 
Update the connection weights of the winner node and its nearby nodes: 


9 (+1)= اه(‎ cx wil where Sai learning rate and jj and fj, c) 
update 


w; ره (1+غ)‎ (t) for other nodes without the weight update 
t=f+1 
UNTIL the sum of weight changes for all the nodes, E(f), is not greater than a 
threshold ع‎ 


الخطوة الوصف 
| جهز قیماً أولية لأوزان الارتباط للعقّد بقيم عشوائية موجبة أو سالبة 


Wio (9, 1-0, j=1, k‏ ... ]زب 
کرر (REPEAT)‏ 


کرز (FOR)‏ إبتداء من i=l‏ إلى 7 
حدد العقدة الفائزة » ل :× w(x‏ رده و«مد- 
حذث آوزان الارتباط للعقدة الفائزة والعقّد المجاورة لها: 
(t+ 1)= wj () + af Goxi- w )([‏ ربلا 


O مب‎ a a 


Om Aa ددر كن‎ 


on © 


حيث إن © هي معدل التعلّم و (FC)‏ گرتعرف ما إذا كانت العقدة ر قريبةٌ Lg‏ 


فيه الكفاية إلى © حتى يتم أخذها ف 
الاعتبار أثناء تحديث الأوزان. 
اجعل () رس = (1+) wy‏ للعقد الأخرى دون تحديث الوزن 
t=4+]‏ 


شرط توقف التكرار (UNTIL)‏ : لا یکون مجموع تغيرات الوزن لكل E Aa‏ أكبر من 


E Jodi 


۳۷۰ استكشاف البيانات: نظريات وخوار زميات وأمثلة 


خوار زميات لاستكشاف bui‏ العنقود والاقتران 


تم تعريف 220 MS‏ ل ل بحیث تستخدم pls dan‏ تكينيونيتستخدم يمد 
كبيرة في بداية عملية التعلّم ومن ثم يتم تخفيض قيم الحد مع كل تكرار في الخوارزمية. 
مثال آخر للدالة f,c)‏ هو: 


1 
ly- rlé 
(©)282عم‎ 


في الخطوة ۸ من الخوارزمية, يتم حساب مجموع تغييرات الوزن لكافة العقّد: 


EO = D د +عرس|‎ -wO دبع‎ 
j 


fU,c) = 


)۲-۱۰( 


بعد أن يتم obs‏ خريطة التنظیم الذاتي (SOM)‏ يتم تحدید عناقید سجلات البیانات 
عن طريق وضع علامة على کل عقدة ذات سجل البیانات (أو سجلات البیانات) التي تجعل 
تلك العقدة هي العقدة الفائزة. ویتم معرفة وتحدید موقع عنقود سجلات البیانات بحيث 
یکون في منطقة مجاورة وقريبة في خريطة الخرجات. 


المثال (۱-۱۰): 

استخدام خريطة التنظیم الذاتي (SOM)‏ بتسح عقد في سلسلة أحادية الأبعادء وتکون 
إحداثيات العقد كالتالي: 1, 2 3 4 5 6 7 8, و9, كما في الشکل ۲-۱۰ لتجمیع وعنقدة 
نقاط البیانات التسعة الموجودة في مجموعة البیانات الخاصة بالکشف عن أعطال نظام 
التصنیع في الجدول ۰۲-۱۰ وهي نفس مجموعة البیانات في الجداول ۱-۸ ۲-۹9. وتحتوي 
مجموعة البیانات على aud‏ حالات للأعطال الآلية الأحاديةء ويحتوي سجل البیانات لكل 
حالة على تسعة متغيرات خاصية خاصة بجودة وحدات ابلنتج. معدل التعلم © هو 0.3 
ودالة الجوار (» ,لال هي: 

1 ۲+ 1,6,6 - ز 0۲] 


1 
fe) =Í , 


0 otherwise 


استکشاف البيانات: نظریات وخوارزميات وأمثلة wi‏ 


الجزء الثالث 


TA Fi SPELL 77274 257 RT SIT‏ ا تلب RL NU E ENLT AET‏ وك تو EAT? LEY‏ شنک 


الشكل (۲-۱۰) 
التصاميم الخاصة بخريطة التنظيم الذاتي (SOM)‏ للمثال (۱-۱۰) 


9 8 7 6 5 4 3 2 1 (حداثيات العقدة 


Node coordinate : 


Wii ارتباط كامل بوزن‎ 
Fully connected w; 


x} X2 X3 X4 Xs Xg x7 Xg Xo 


الجدول (۲-۱۰) 
مجموعة البيانات الخاصة بالكشف عن أعطال نظام التصنيع بتسع حالات للأعطال ASV)‏ الأحادية 


رقم الحالة - Instance‏ متغبرات الخاصية عن جودة وحدات اطنتج 
(الآلة المعطلة - Attribute ee a Quality of Faulty‏ 

xe X7 Xs XS X4 Xy X2 XI (Machine‏ وير 

1 0 1 0 1 60 0 0 1 1 (M1) 

0 1 0 0 0 1 0 1 0 2(M2) 

0 1 1 1 0 1 1 0 0 3(M3) 

0 1 0 0 0 1 0 0 0 4(M4) 

1 0 1 0 1 0 0 0 00م‎ 5(M5) 

0 0 1 1 0 0 0 0 0 6(M6) 

0 0 1 0 0 0 0 0 0 7(M7) 

0 1 0 0 0 0 00 0 8(M8) 

1 0 0 0 0 0 0 0 9 9{M9) 
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خوار زمیات لاستكشاف ame bul‏ والاقتران 


في الخطوة ١‏ من عملية abel‏ : « نقوم بتهيئة sid‏ الارتباط بالقيم الأولية العشوائية التالية: 


—0.24 0.44 0.96 0.82 
—0.41 0.44 -0.45 -0.22 
0.46 0.93 -0.75 0.60 
0.27 -0.15 0.35 -6 
w,(0) =| 0881 wa(0)=| 0.84] w(0)=| 0.05[ w,(0)=| 0.91 
-0.09 -0.36 0.86 -0 
0.78 -0.16 0.12 0.33 
-0.39 0.55 -0.49 -0.54 
0.91 0.93 0.98 0.47 
0.62 -0.47 -0.87 
0.44 —0.62 0.23 
0.33 —0.96 0.37 
0.46 -0.43 0.49 
w,(0) 21-0251 wg(o) =} 0.32] w,(0)=| 0.04 
-6 0.96 0.33 
-0.71 0.70 —0.10 
-0.61 —0.04 0.45 
0.38 —0.84 —0.96 
—0.95 0.69 
—0.21 0.23 
—0.48 —0.69 
0.05 0.86 
(0)وس‎ =|—0.54| w0) =| 2 
0.23 ~0.91 
-0,37 0.82 
0.61 0.31 
-0.76 0.31 


استخدام هذه الأوزان الأولية لحساب مخرجات خريطة التنظیم الذاتي (SOM)‏ 
لسجلات البیانات التسعة یجعل العقد آرقام 4 9 7 9 1, 6 3989 هي العقّد الفائزة 
ل زین KS X4 2:3 X2‏ تت ريت وی X99‏ على التوالي. على سبیل امطثال, يتم حساب المخرجات 
الخاصة بکل عقدة ر× لتحدید العقدة الفائزة: 
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الجزء الثالث 


wi O 
w3(0)x, 
03 w3(0)x, 

w4(0)x, 

=|we(0)x1 
we(0)x, 
w7(0)x1 
wg(0)x, 

2( 0) وا 

(—0.24)(1) + (—0.41)(0) + (0.46)(0) + (0.27)(0) + (0.88)(1) + )-0.09()0( 
+(0.78)(1) + (—0.39)(0) + (0.91)(1) 


(0.44)(1) + (0.44)(0) + (0.93)(0) + (—0.15)(G) + (0.84)(1) + )-0.36()0( 
+(—0.16)(1) + (0.55)(0) + (0.93)(1) 


(0.96)(1) + (—0.45)(0) + (—0.75)(0) + (0.75)(0) + (0.05)(1) + (0.86)(0) 
+(0.12)(1) + (—0.49)(0) + (0.98)(1) 


(0.82){1) + (—0.22)(0) + (0.60)(0) + (—0.56)(0) + (0.91)(1) + (—0.89)(0) 
+(0.33)(1) + (—0.54)(0) + (0.47)(1) 


(0.62)(1) + (0.44)(0) + (0.33)(0) + (0.46)(0) + (-0.25)(1) + (—0.26)(0) 
+(—0.71)(1) + (—0.61)(0) + (0.38)(1) 


ll 


(—0.47)(1) + (—0.62)(0) + (—0.96)(0) + (—0.43)(0) + (0.32)(1) + (0.96)(0) 
+(0.70)(1) + (-0.04)(0) + (—0.84)(1) 


(—0.87)(1) + (0.23)(0) + (0.37)(0) + (0.49)(0) + (0.04)(1) + (0.33)(0) 
+)-0.10()1( + (0.45)(0) + (—0.96)(1) 


(—0.95)(1) + (—0.21)(0) + (—0.48) (0) + (0.05)(0) + (-0.54)(1) + (0.23) (0) 
+(—0.37)(1) + (0.61)(0) + (—0.76)(1) 


(0.69)(1) + (0.23)(0) + (—0.69)(0) + (0.86)(0) + (0.22)(1) + (—0.91)(0) 
+(0.82)(1) + (0.31)(0) + (0.31)(1) 
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2 33 
2.04 
2.11 


253 
=| 0.04 


—0.29 
—1.90 


—2.62 
2.04 


الشكل (۲-۱۰) 
العقد الفائزة لنقاط البيانات التسع في المثال (۱-۱۰) باستخدام قيم الوزن أولية 


إحداثيات العقدة 


Node coordinate : 
{Xp مولا‎ X7} 


We ارتباط كامل بوزن‎ 
Fully connected wy; 
Xj X2 2 و3‎ Xs Xg X7 و ود‎ 


وحيث إن العقدة رقم 4 لها أكبر قيمة مخرجات 2.53 = 04 فان العقدة 4 هي 
العقدة الفائزة ل × يوضح الشكل ۳-۱۰ خريطة المخرجات للإشارة إلى العقدة الفائزة 
لسجلات البيانات التسع. ومن ثم يكون لدينا عناقيد أولية لسجلات البيانات على أساس 
الأوزان الأولية. 

3 الخطوات ۲ و۳ يؤخذ في الاعتبار سجل البيانات /*. في الخطوة »٤‏ يتم حساب 
المخرجات الخاصة JS‏ عقدة ل xy‏ لتحديد العقدة الفائزة. كما هو موضح dilu‏ فان 
العقدة 4 هي العقدة الفائزة ل ره ومن ثم 4-هم. وفي الخطوة © يتم تحديث أوزان 
الارتباط إلى العقدة الفائز ;5 c=4‏ ومجاوراتها c-1=3‏ و 5< [لم: 
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P w0) + (0. le - w,(0)] = 0 701:00 + (0.3)xı 


—0.80 
0.33 
—0.54 
0.47 


—0.38 


0.87 
—0.15 
0.42 
7 
=| 0.94], 
—0.56 
0.53 
0.63 


EP در قي مر قن‎ 2 oo m 


0.82 

—0.22 

0.60 

—0.56 
= (0.7) + (0. 
w3(1) = w3 (0) + (0.3)[xı — w3(0)] = (0.7)w3(0) + (0.3)x, 


0.96 1.96 
—0.45 —0.32 
—0.75 0.53 
0.35 0.25 
= (0.7)| 0.051+ )0.3(11| - 0.34}. 
0.60 
0.38 


—0.34 
ws (1) = ws(0) + (0.3)[x, - ws(0)] = (0.7)ws(0) + (0.3) x1 


FPoOorOoro oOo = 


0.99 
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= (0.7) 


في الخطوة A‏ تبقى الأوزان الخاصة بالعقد الأخرى هي نفسها. وف الخطوة ۷ تزيد / إلى 
1ء وتكون الأوزان الخاصة بالعقد التسعة هي: 


0.87 
—0,15 
0.42 
—0,39 
0,94 
—0.56 
0.53 
—0.38 
0.63 


Sh PEM E E TE T T وت‎ 
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w,(1) = 


—0.87 
0.23 
0.37 
0.49 
0.04 


0.33 
—0.10 


0.45 
—0.96 


w7(1) = 


~0.47 
—0.62 
—0.96 
—0.43 
0.32 
0.96 
0.70 
—0.04 
—0.84 


0.44 
0.44 
0.93 
—0.15 
0.84 
—0.36 
—0.16 
0.55 
0.93 


w,(1) = 


۷ )1( = 


0.73 
0.31 
0.23 
0.32 
0,13 
-0.18 
0.80 
—0.43 
0.57 


—0.24 
—0.41 
0.46 
0.27 
0.88 
—0.09 
0.78 
—0.39 
0.91 


ws(1) = 


w (1) = 


الجزء الثالث 


يعن نا 


~0.21 0.23 

~0.48 —0.69 

0.05 0.86 

wg(1) 21-054۱ w(1)=| 0.22 
0.23 -0.91 

—0.37 0.82 

0.61 0.31 

—0.76 0.31 


بعد Ud‏ نعود إلى الخطوات ۲ و۳ ويؤخذ في الاعتبار سجل البيانات x2‏ وتتواصل عملية 
التعلم حتى يصبح مجموع التغييرات المتعاقبة للأوزان» والتي استهلتها كل سجلات البيانات 
التسع» صغيرة با فيه الكفاية. 


:(Software and Applications) البرامج والتطبيقات‎ ۲-۰ 


يتم دعم خريطة التنظيم الذاني (SOM)‏ عن طريق البرمجيات: 
e Weka (http://www.cs.waikato.ac.nz/ml/wekal)‏ 
e MATLAB® (www.matworks.com)‏ 


يقوم ليو ويسبيرج )2005 (Liu and Weisberg,‏ بتطبيق خوارزمية خريطة التنظيم 
الذاتي (SOM)‏ وذلك لغرض تحليل تقلبات المحيط الحالية. كما يقوم بي ,2003 (Ye,‏ 
Chapter 3)‏ بتطبيق خريطة التنظيم الذاتي (SOM)‏ على بيانات أنشطة الدماغ الخاصة 
بالقرود وعلاقة ذلك باتجاهات حركتها. 
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„ŒExercises) التمارين‎ 


١٠-٠١‏ واصل عملية التعلّم في اللثال ۱-۱۰ لعمل تحديثات الوزن, عند إدخال x2‏ إلى خريطة 
التنظيم الذاتي (SOM)‏ 


۲-۰ استخدم برمجية Weka‏ لرسم خريطة التنظيم الذاي JÈU (SOM)‏ ۰۱-۱۰ 


۲-۰ عرف خريطة التنظيم الذاتي (SOM)‏ ثنائية ola!‏ ودالة الجوار في المعادلة ۲-۱۰ 
للمثال ۱-۱۰ وقم بعمل تكرار واحد لتحدیث الوزن عند تقديم 1× إلى خريطة 
التنظیم الذاتي (SOM)‏ 


۰ استخدام برمجية Weka‏ لرسم خريطة التنظیم الذاتي (SOM)‏ ثنائية الأبعاد للمثال 
۱-۰ 


0-٠‏ استخرج خريطة التنظیم الذاتي (SOM)‏ أحادية الأبعاد بنفس دالة الجوار في امثال 
۱-۰ ملجموعة البیانات الخاصة بالحلقات الداثرية ‏ مكوك الفضاء في الجدول ۲-۱. 
استخدام درجة حرارة الإطلاق (Launch —Temprature)‏ وضغط التحقق من 
التسرب (Leak—Check Pressure)‏ کمتغیرات خاصية. ودالة التطبیع في اطعادلة 
۶-۷ للحصول على قيم مطبعة لدرجة حرارة الاطلاق وضخط التحقق من التسرب 
Lal‏ 


SS,‏ سا a‏ سبي AA‏ رم سس سس 
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13- ۳۳ يعات الاحتمالية للبيانات الأحادية امتغير 
Probability Distributions of Univariate Data‏ 


هکن تطبيق خوارزميات التعنقد الموجودة في الفصول من ۸ إلى ٠١‏ على بيانات ذات 
متغير واحد أو أكثر من متغيرات الخاصية. إذا كان هناك متغير خاصية واحد فقطء يكون 
لدينا بيانات أحادية المتغير. وبالنسبة للبیانات أحادية التخیر» فإن التوزيع الاحتمالي 
لسجلات البیانات لا بظهر فقط عناقید سجلات البیانات» ولکنه بظهر أيضاً العديد من 
الخصائص الأخری المتعلقة بتوزیع سجلات البیانات. هکن تحدید العدید من أنماط البیانات 
المعينة لبیانات أحادية المتغير من خلال أنواع التوزیعات الاحتمالية ALLAN‏ لها. یستعرض 
هذا الفصل مفهوم وخصائص التوزیع الاحتمالي. واستخدام خصائص التوزیع الاحتمالي 
لتحدید بعض أنماط البیانات الأحادية المتغير. وترد قائمة من حزم البرمجیات لتحدید 
خصائص التوزیع الاحتمالي للبیانات الأحادية التغیر بالاضافة إلى ذکر بعض المراجع 
لتطبیقات التوزیعات الاحتمالية. 
۱-۱ التوزیع الاحتمالي للبیانات الأحادية المتغير وخصائص التوزیع الاحتمالي 
لأنماط بیانات متنوعة 
(Probability Distribution of Univariate Data and Probability‏ 
Distribution Characteristics of Various Data Patterns):‏ 
إذا كان لدينا متغير خاصية عن وبياناتها المرصودة؛ en.n‏ ر فإنه غالباً ما يتم استخدام 
املدرج التكراري (frequency histogram)‏ للبيانات المرصودة بغرض إظهار تكرارات 
جميع قيم X‏ يوضح الجدول ۱-۱۱ جميع قيم درجة حرارة الإطلاق Launch)‏ 
#6 ف مجموعة بيانات الحلقات الدائرية لمكوك الفضاء» والمأخوذة من 
الجدول ۲-۱. ويوضح الشكل ۱-۱۱ مدرجاً تكرارياً لقيم درجة حرارة الإطلاق في الجدول 
۱-۱ باستخدام عرض فترة يساوي 5 وحدات. Ol‏ تغيير عرض الفترة يؤدي إلى تغير تكرارات 
البيانات المرصودة في كل فترة زمنية. ومن ثم يتبعه تغيير في الدرج التكراري. 
في المدرج التكراري الموضح في الشكل 21-١١‏ هكن استبدال المدرج التكراري للبيانات 
المرصودة لكل فترة زمنية بالكثافة الاحتمالية (probability density)‏ والتي يمكن 
تقديرها باستخدام نسبة ذلك التكرار إلى العدد الإجمالي لسجلات البيانات المرصودة. من 
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الجزء الثالث 


خلال رسم منحنى 5 للمدرج التكراري ال الخاص بالكثافة الاحتمالیة» نحصل على منحنى 
ملائم لدالة الكثافة الاحتمالية call flit)‏ تعطي الكثافة الاحتمالية لأي قيمة × وهناك نوع 
شائع من التوزيع الاحتمالي وهو التوزيع الطبيعي (normal distribution)‏ بدالة الكثافة 
الاحتمالية التالية: 


(=H)? 


F (3-44)‏ 2 م 


f(x) =‏ 
الجدول (۲-۱۱) 
قيم درجة حرارة الاطلاق (Launch Temperature)‏ في مجموعة البیانات الخاصة بعدد 
الحلقات الداثرية ‏ مکوك الفضاء 
رقم الحالة درجة حرارة الاطلاق 
Launch Temperature Instance‏ 


66 1 
70 2 
69 3 
68 4 
67 5 
72 6 
13 7 
70 8 
57 9 
63 10 
70 11 
78 12 
67 13 
33 14 
67 15 
75 16 
70 17 
81 18 
76 19 
79 20 
75 21 
76 22 
58 23 
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الشکل (۱-۱۱) 
المدرج التكراري لبیانات درجة حرارة الاطلاق (Launch Temperature)‏ 


التکرار 
Frequency‏ 
4 


wv‏ س 


51-55 5660 61-65 66-70 71-75 76-80 81-85 


حيث )10 
y‏ هو التوسط. 
ع هو الانحراف ال معياري. 
یکون التوزیع الطبيعي متماثلاً مع أعلى كثافة احتمالية عندما یکون المتوسط ير = × 
ونفس BUSI‏ الاحتمالية عند ۵+ ير X=‏ و -a‏ بر XE‏ 
تظهر العدید من أنماط البیانات خصاتص مميزةٌ لتوزیعاتها الاحتمالية. على سبیل JELI‏ 
درسنا بیانات سلاسل الزمن (Time series data)‏ لأنشطة الحاسوب وشبكة الانترنت 
(Ye, 2008, Chapter 9)‏ تتکون GLL‏ سلاسل الزمن من بیانات مرصودة على مدی 
زمنی معین. لاحظنا أنماط البیانات التالية ا مستخرجة من بیانات الحاسوب وشبكة الانترنت 
والموضحة في الشکل ۲-۱۱: 
© النمط السماري (Spike)‏ 
* غمط التذبذب العشوائي (Random fluctuation)‏ 
9 ط تغير الخطوة (Step change)‏ 
۶ ط pai‏ الثابت (Steady change)‏ 
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هناك خصائص ۳ سمات) خاصة es‏ يعات الاحتمالية لبیانات سلاسل 3 ذات 
النمط المسماري ونمط التذيذب العشوانی» وفط تغيير ghadi‏ ونمط التغيير الثابت. إن 
بيانات سلاسل الزمن ذات النمط المسماري كما هو مبين في الشكل ۲-۱۱ (a)‏ ۰ يكون بها 
غالبية سجلات البيانات ذات قيم متشابهة» وقليل من سجلات البيانات ذات قيم آعلی» مما 
ينتج ارتفاعاً مسمارياً تصاعدياًء أو ذات قيم أقل مما ينتج انخفاضاً مسمارياً تنازلياً. يحدد 
التكرار العالي لسجلات البيانات ذات القيم المتشابهة أين يقع المتوسط ذو الكثافة الاحتمالية 
العالية. وينتج عن one‏ قليل من سجلات البيانات ذات قيم أقل of)‏ أعلى) من المتوسط 
لاتجاه مسماري هابط (آو صاعد) ذیل طويل على الجهة اليسرى gl)‏ اليمنى) من المتوسطء 
ومن ثم توزيع ملتوي (skewed distribution)‏ إلى الجهة اليسرى (أو اليمنى). ومن ثم 
ينتج عن بيانات سلاسل الزمن اللسمارية. توزيع احتمالي ملتو ( skewed probability‏ 
71 غير متماثل مع معظم سجلات البيانات التي لها قيم قريبة من المتوسط, 
وعدد قليل من سجلات البيانات التي لها قيم تنتشر على جانب واحد من المتوسطء والتي 
تشكل ذيلاً طويلاً. كما هو مبين في الشكل ۲-۱۱ (a)‏ وينتج عن بيانات سلاسل الزمن ذات 
نمط التذبذب العشوائي (random fluctuation)‏ توزيع طبيعي» متمائل كما هو مبين 
في الشكل ۲-۱۱ (b)‏ في حين أن بيانات سلاسل الزمن ذا ذات تغيير الخطوة الواحدة ( one‏ 
LS (step change‏ هو مبين في الشكل ۲-۱۱ (C)‏ « تنتج عنقودين من سجلات البيانات 
هرکزین متوسطين (Iwo ae)‏ مختلفينء و تنتج من ثم توزیعاً ثنائي النسق 
(bimodal distribution)‏ تقوم بيانات سلاسل الزمن ذات مط تغييرات الخطوات 
امتعددة (multiple step changes)‏ بإنشاء عناقيد متعددة من سجلات البيانات مراکز 
متوسطة مختلفة. ومن ثم إنشاء gjg‏ متعدد النسق (multimodal distribution)‏ 
ويكون لبيانات السلاسل الزمنية ذات نمط التغيير الثابت (على سبيل JEL‏ الزيادة الثابتة 
للقیم أو الانخفاض الثابت للقيم) قيم موزعة بالتساوي ومن ثم ينتج توزيعاً موحد كما 
هو Que‏ في الشكل ۲-۱۱ (d)‏ ولذلك. تنتج الأنماط الأربعة من بيانات سلاسل الزمن أربعة 
آنواع مختلفة من التوزيع الاحتمالي: 

(Left or right skewed distribution) pI التوزیع الملتوي الأمن أو‎ © 

(Normal distribution) التوزیع الطبيعي‎ e 

» التوزيع التعدد النسیق (Multimodal distribution)‏ 

(Uniform distribution) التوزیع الموحد‎ © 
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395 زر‎ UO O NJIA ORTAS] 
ار لماوع »ار احر ينل ينمدم‎ 


را 
— 


د “Bayi‏ ميئل aaysuel L295‏ 
ITN‏ لجوج ملاح يسردم تابد رورس 


زع 
00000 


3 8 8 
5 8 8 


PLT وععة‎ TET 5؟كة‎ OGL ae) APL ISEI دود وو‎ p9 35E) ZZ ae) 
S6Z 3562 ESZ SF) ١1 25) اوق‎ 3600 22۱25۲۵ 58 OSE) طم‎ 8463 ۶ 
| H Pid] ¢ 


۱ 2:۱ XM SB ۳۹9 te T ۲ 
آ‎ ۶ ٩ ۴ 1 


DF TUOMAS MYM OMHAN ZOH TAN 


AUO aA,‏ = 00 و-ورلعسدرل"” ) ' وحجؤمووو) 
CULL ZOYSIA‏ و ONANI‏ 
WwerBorstH‏ زاتمم دعر ه كدوم جز' 6‏ 20064691( 


RUC L295 0 “Baw [MFI BO جاجز ان‎ 01/1 7106 
ziro oiva soro 9000 pooo zoro 0000 2000- 


«spike pattern) 


05 


(randomfluctuation pattern) الي‎ 


بالنمط المسماري 


(b)‏ الرسم البيا 


تها الاحتمالية. (a)‏ الرسم البياني والمدرج التكراري الخاص 
في والمدرج التكرا 


ري الخاص بنمط التذبذب 


bli‏ بيانات 


السلاسل الزمنية 


5 


توزيعا 


الث 


)۲-۱۱( 


خوارزمیات لاستکشاف أنماط العنقود والاقتران 


الجزء الثالث 


تابع الشكل (۲-۱۱) أنماط بيانات السلاسل الزمنية وتوزيعاتها الاحتمالية. (C)‏ الرسم البياني والمدرج 
التكراري الخاص بنمط التغيير بخطوة (d) (step change pattern)‏ الرسم البياني والمدرج 
التكراري الخاص bau‏ التغير الثابت (steady change pattern)‏ 
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خوارزمیات ی اف bui‏ العتقود والاقتران 


كما هو موضح في يي 9 ۳۳ ,2008 (Ye,‏ فان أنماط البیانات الأربعة, 
والتوزيعات الاحتمالية المقابلة لهاء هكن استخدامها لتحديد ما إذا كان هناك أنشطة 
هجومية تجري في أنظمة الحاسوب وعلى شبكة الانترنت. SY Wig‏ بيانات الحاسوب وشبكة 
الإنترنت التي تتعرض للهجوم. أو لظروف الاستخدام العاديء قد تُظهر أنماطاً مختلفة من 
البيانات. ان الکشف عن الهجمات الإلكترونية هثل جزءاً مهماً من حماية أنظمة الحاسوب 
وشبكة الإنترنت من الهجمات الإلكترونية. 


۲-۱ طريقة التمييز بين أربعة توزيعات احتمالية 
(Method of Distinguishing Four Probability Distribution):‏ 
قد نميز أنماط البيانات الأربعة هذه عن طريق تحديد التوزيع الاحتمالي للبیانات 
الخاصة بها. على الرغم من وجود اختبارات متعددة لتحديد ما إذا كان للبيانات توزيع 
طبيعي el‏ لا )1995 (Bryce,‏ فإن الاختبارات الإحصائية لتحديد أحد التوزيعات الاحتمالية 
لا تعتبر شائعة. وعلی الرغم من أن المدرج التكراري يمكن رسمه لكي يتيح لنا أولاً أن نتصور, 
ومن ثم نحدد التوزیع الاحتماليء نحتاج إلى اختبار يمكن برمجته وتشغيله على الحاسوب 
دون الحاجة إلى الفحص اليدوي والبصري وخصوصاً عندما تكون مجموعة البيانات كبيرة 
وتكون مراقبة البيانات بشكل مباشر مطلوبة مثل التطبيق الخاص بكشف الهجمات 
الإلكترونية. تم تطوير طريقة لتمييز التوزيعات الاحتمالية الأربعة باستخدام خليط عن . 
اختبارات الالتواء أو الانحراف (skewness)‏ واختبارات النسق (mode tests)‏ في يي (Ye,‏ 
Chapter 9)‏ ,2008 وال موضح في الجزء التالي. 


وتعتمد طريقة تمييز التوزيعات الاحتمالية الأربعة على اختبارات الانحراف والنسق. 
يتم تعريف الانحراف على أنه: 


)۲-۱۱( 


(x — 8 


skewness = E ( 5 
0 
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الجزء الثالث 
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حيث 4 و0 هما المتوسط والانحراف اللعياري لجتمع البيانات اطستهدف للمتغير عد عندما 
يكون لدينا :1 من سجلات البیانات» «تد... رتك فإن انحراف العينة يتم حسابه كما يلي: 


1210 وناك‎ ENER SLATE T: LTA الا‎ 


AEZ ALT PLS 502۳۲ SIDS ETLER TAN ES 


n Dh (x - x)? 


۳-1( اا  E‏ ی سيت 
(n — 1) (n — 2) 3" l‏ 


skewness = 


حيث 7 وك هما المتوسط والانحراف المعياري لعينة البيانات. وعلی عكس التباين 
(Variance)‏ والذي يقوم بتربيع كل من الانحرافات الموجبة والسالبة عن المتوسط لجعل 
كل من الانحراقات الموجبة والسالبة عن المتوسط تسهم في التباين بنفس الطريقة يقوم 
الانحراف بقياس القدر الذي تكون به انحرافات البيانات عن المتوسط متماثلة ومتطابقة 
على جانبي المتوسط. يكون للتوزيع المنحرف إلى اليسار بذيل طويل على الجانب الأيسر من 
المتوسطء قيمةٌ سالبةٌ لمقياس الانحراف. ويكون للتوزيع المنحرف إلى اليمين بذيل طويل على 
الجانب الأمن من التوسط قيمةٌ موجبة لمقياس الانحراف. 


الجدول (۲-۱۱) 
خليط من نتائج اختبارات الانحراف (Skewness)‏ والنسق (Mode)‏ لتمییز التوزيعات الاحتمالية الأربعة 


Probability Dip Test Mode Test Skewness Test 
Distribution Guill اختيار الاتعراف اختبار النسق اختبار أحادي‎ 
التوزیع الاحتماي‎ 
Multimodal distribution Unimodality is rejected | Number of Significant modes Any result 
مرفوضة۲ التوزیع متعدد النسق‎ Guill حادية‎ 22 
۲ > الأنساق ذات الدلالة‎ sac 3 


Uniform distribution Unimodality is not Number of Significant modes Symmetric 
التوزيع الموحد‎ rejected >2 متماثل‎ 
ذات الدلالة > ۲ | أحادية النسق غير مرفوضة‎ SLIM عدد‎ 
Normal distribution Number of Significant modes Symmetric 
متمائل 2< التوزيع الطبيعى‎ 
x ۲ > عدد الأنساق ذات الدلالة‎ 
Number of Significant modes Skewed 
<2 محرا ف‎ 
عدد الأنساق ذات الدلالة > ؟‎ 


rejected 
أحادية النسق غير مرفوضة‎ 
Unimodality is not 
rejected 
أحادية النسق غير مرفوضة‎ 


Unimodality is not 
Skewed distribution 


التوزيع المنحرف 
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ELT ات‎ SDs RTL Te SSL 


يقع النسق الخاص 7 الاحتمالي للمتغير × داخل dad‏ × التي يكون لها الحد 
الأقصى من الكثافة الاحتمالية. عندما يكون لدالة الكثافة الاحتمالية قيم قصوى متعددة 
محلية (multiple local maxima)‏ يكون للتوزيع الاحتمالي أنساق (modes)‏ متعددة. 
الكثافة الاحتمالية ذات القيمة الكبيرة تشير إلى عنقود من سجلات البيانات المتشابهة. ومن 
ثم يرتبط النسق بعملية تعنقد سجلات البيانات. التوزيع الطبيعي normal)‏ 
00 والتوزيع المنحرف (skewed distribution)‏ هي أمثلة على التوزيعات 
أحادية النسق الواحد (unimodal distributions)‏ « وذلك على العكس من التوزيعات 
التعددة النسق (distributions multimodal)‏ ذات الأنساق التعددة. التوزيع الموحد 
(uniform distribution)‏ لیس له Gad‏ ذو دلالة dago‏ وذلك GY‏ البيانات موزعة بشكل 
متساو ولا تتشكل في عتاقید. یحدد اختبار أحادي النسق (Hartigan and (dip test)‏ 
Hartigan, 1985)‏ ما إذا کان, التوزيع الاحتمالي الأحادي النسق. يحدد اختبار النسق في 
البرنامج الإحصالي ۸ (www.r-project.org)‏ الدلالة ا مهمة لكل نسق محتمل في التوزيع 
الاحتمالی» ويعطي عدد الأنساق ذات الدلالة المهمة. 
يوضح الجدول ۲-۱۱ خليطاً من نتائج اختبارات الانحراف والنسق والتي تستخدم 
لتمييز التوزيعات الاحتمالية الأربعة: التوزیع متعدد multimodal) Guill‏ 
Le (distribution‏ فيها التوزيع J‏ النسق (bimodal distribution)‏ والتوزيع املوحد 
(uniform distribution)‏ والتوزيع الطبيعي (normal distribution)‏ والتوزيع 
(skewed distribution) sahl‏ لذلك. إذا علمنا أن للبيانات واحداً من هذه 
التوزيعات الاحتمالية الأربعةء يمكننا التحقق من خليط النتائج المكون من اختبار أحادي 
النسق (dip test)‏ واختبار النسق (mode test)‏ واختبار الانحراف dskewness test)‏ 
وتحديد أي من التوزيعات الاحتمالية تحمله البيانات. 


:(Software and Applications) البرمجيات والتطبيقات‎ ۳-۱ 


يقوم برنامج ستاتسیکا (www.statsofi.com) (Statistica)‏ بدعم اختبار 
الانحراف (skewness test)‏ وتدعم برامج R‏ الإحصاق www.r-project.org)‏ 
(www.cran.r-project.org/doc/packages/diptest.pdf‏ اختبار أحادي النسق 
(dip test)‏ واختبار النسق (mode test)‏ في بي )9 (Ye, 2008, Chapter‏ مكن تمييز 
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البيانات الحاسوبية. وبيانات شبكة الإنترنت التي تتعرض للهجوم الالکترونی» وظروف 
الاستخدام الطبيعي. وذلك عن طريق التوزيعات الاحتمالية امختلفة للبيانات في ظل ظروف 
يتم إجراء الكشف عند التعرض للهجوم عبر الإنترنت من خلال مراقبة البيانات 
الحاسوبية المرصودة. وبيانات شبكة الانترنت» وتحديد ما ]13 كان التغيير على التوزیع 
الاحتمالي من وضع الاستخدام الطبيعي إلى وضع الهجوم الإلكتروني قد حدث أم Y‏ 


(Exercises) التمارين‎ 


١-١‏ قم باختيار واستخدام البرمجية لإجراء اختبار الانحراف واختبار النسق. والاختبار 
أحادي النسقء لبيانات درجة حرارة الإطلاق (Launch Temperature)‏ في الجدول 
21-١‏ وقم باستخدام نتائج الاختبار لتحدید ما إذا كان التوزيع الاحتمالي لبيانات 
درجة حرارة الإطلاق بقع في أحد التوزيعات الاحتمالية الأربعة في الجدول ۲-۱۱. 


۱ اختر متغيراً Led)‏ في مجموعة البيانات التي حصلت عليها في المسألة رقم ۲-۱ وقم 
باختيار عرض الفترة لرسم مدرج تكراري للبيانات الخاصة بالمتغير. قم باختيار 
واستخدام البرمجية لإجراء اختبار الانحراف» واختبار النسقء واختبار أحادي النسق» 
على البيانات الخاصة بالتغیر. واستخدم نتائج الاختبار لتحديد ما إذا كان التوزيع 
الاحتمالي لبيانات درجة حرارة الإطلاق يقع في واحد من التوزيعات الاحتمالية الأربعة 
في الجدول ۲-۱۱. 

۳۱ اختر متغیرا Lady‏ في مجموعة البيانات التي حصلت عليها في المسألة ۳-۱ وقم باختيار 
عرض الفترة لرسم مدرج تكراري للبیانات الخاصة بالمتغير. قم باختيار واستخدام 

- البرنامج لإجراء اختبار الانحراف» واختبار النسق, واختبار أحادي النسقء على البيانات 
الخاصة بالتغیر. وقم باستخدام نتائج الاختبار لتحديد ما إذا كان التوزيع الاحتمالي 
لبيانات درجة حرارة الإطلاق يقع في واحد من التوزيعات الاحتمالية الأربعة في 
الجدول ۲-۱۱. 


۳۹۰ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات لاستكشاف bul‏ العنقود والاقرا ان 


۳- قواعد الاقتران 
Association Rules‏ 


تكشف قواعد الاقتران (association rules)‏ العناصر (items)‏ التي كثيراً ما يرتبط 
بعضها ببعض. لقد تم تطوير خوارزمية قواعد الاقتران بدايةٌ في سياق تحليل سلة السوق 
(market basket analysis)‏ لدراسة السلوكيات الشرائية للعملاء والتي يمكن استخدامها 
لغرض التسويق. تكشف قواعد الاقتران ما هي العناصر التي غالباً ما يشتريها العملاء معا 
إن العناصر أو المواد التي, في كثير من GLOW‏ يتم شراؤها معأ هكن وضعها في المتاجر أو 
هكن أن يتم ربطها معا في مواقع التجارة الإلكترونية على الإنترنت لتعزيز مبيعات هذه 
المواد أو لأغراض تسويقية أخرى. يوجد العديد من التطبيقات الأخرى لقواعد الاقتران, على 
سبيل JELI‏ تحليل النصوص (text analysis)‏ لغرض تصنيف الوثائق واسترجاعها. يقدم 
هذا الفصل خوارزمية استكشاف قواعد الاقتران. وترد قائمة بحزم البرمجيات التي تدعم 
قواعد الاقتران. ويتم إعطاء بعض التطبيقات لقواعد الاقتران مع مراجعها. 


۱-۲۳ تعريف قواعد الاقتران ومقاييس الاقتران 

(Definition of Association Rules and Measures of Association): 

تحتوي مجموعة العناصر (item set)‏ على مجموعة من العناصر. على سبيل JULI‏ 
تعد قملية هر عميل في la gasa‏ (بقالة) حي مجموعة pala‏ أو مجقوعة من مواد ابعال 
مثل البيض والطماطم والتفاح. تحتوي مجموعة البيانات لاكتشاف أعطال النظام بتسع 
حالات من الأعطال الآلية الأحادية في الجدول ١-8‏ على تسعة سجلات للبيانات» والتي يمكن 
اعتبارها Ole gare gus‏ من العناصر عن طريق X9 X8 X7 X6 NS 74 763 X2 XI a‏ کتسع 
مشكلات جودة مختلفة وبقيمة تساوي 1 والتي تشير إلى وجود مشكلة جودة. ويوضح 
الجدول ۱-۱۲ مجموعات العناصر التسع التي تم الحصول عليها من مجموعة بيانات 
اكتشاف أعطال النظام. ويكشف اقتران العناصر المتكرر في الجدول ۱-۱۳ عن أي من مشاكل 
الجودة والتي غالباً ما تحدث معا 
وتأخذ قاعدة الاقتران الشكل: 
A>C‏ 
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الجزه الثالث 


TENE 


حيث إن: 


(antecedent) وتسمی الشرط السابق‎ polis هي مجموعة‎ A 

(consequent) هي مجموعة عناصر وس النتيجة اللاحقة‎ C 
وهذا يعني آن» ©-40)0, (مجموعة فاي). إن‎ Iida polis و6 ليس لديهما أي‎ A 
في سجل بيانات‎ A polis في قاعدة الاقتران تعني أن وجود مجموعة‎ CoA العلاقة بين‎ 
في سجل البيانات نفسه. وهذا يعني أن مجموعة العناصر‎ C تعني وجود مجموعة العناصر‎ 
A مقترنة مجموعة العنصر‎ C 

الجدول (۱-۱۲) 
مجموعة بيانات اكتشاف أعطال النظام بتسع حالات من الأعطال الآلية الأحادية ومجموعات العنصر 
التي تم الحصول عليها من مجموعة البيانات هذه 


رقم الحالة - Instance‏ متغيرات الخاصية عن جودة وحدات المنتج العناصر في كل سجل 
UV)‏ المحطلة - Attribute Variables about Quality of Parts‏ بيانات 
Faly Machine‏ ال nel‏ 

{xr Xs, X7, x9} 1 0 1 0 1 0 0 0 [١ 1 (M1) 
(x2, X4, x8} 0 1 0 0 0 1 0 1 0 2(M2) 
{x3, X4, X6, X7,X8} 0 1 1 1 O 1 1 ©0 0 3(M3} 
{xa xe} 0 1 00 010 0 0 4(M4) 
{ x5, x7, x9} 1 0 1 0 10 0 0 0 5(M5) 
{x6, x7} 0 0 1 1 0 0 0 00 6(M6) 
{x7} 0 0 1 0 0 0 0 0 0 7(M7) 
{xs} 0 1 0 0 0 0 0 0 0 8(M8) 
{xo} 1 0 0 0 00 00 0 9(M9) 


يتم تعريف مقاييس الدعم (support)‏ الثقة (confidence)‏ والعون (Tiff)‏ 
واستخدمها لاكتشاف مجموعتي العناصر 4 Cy‏ اللتين كثيراً ما تقترنان معاً. مقياس الدعم 
أو support (x)‏ في مجموعة العناصر X‏ يقيس نسبة سجلات البيانات التي تحتوي على 
مجموعة العناصر X‏ ويعرف بأنه: 


yr‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارز زميات لاستکشاف =e) bui‏ والاقتران 


iO iis: ع‎ D and 5 2 X}| l 
N 
حيث إن:‎ 
يدل على مجموعة البيانات التي تحتوي على سجلات البيانات.‎ D 
X ويحتوي على العناصر في‎ (S © D (الشار إليه ب‎ D هو سجل بيانات في‎ S 
AS 2 × (المشار إليها ب‎ 
S سجلات البيانات في‎ ose تدل على‎ || 
D سجلات البيانات في‎ ous هو‎ N 


استناداً إلى التعریف» يكون لدينا: 


{SIS > DandS29}| N _ 


support(@) = 1 n= 


على سبيل JEL‏ بلجموعة البيانات التي لها تسعة سجلات بيانات في الجدول AAW‏ 


support({xs}) = = 0.22 

support({x7}) = > = 0.56 

support({xوg})‎ = = = 0.33 
support({xs,x7}) = 3 = 0.22 
support({xs,X9}) = 3 = 0,22. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة yar‏ 


الجزء ال الثالٹ 


مقیاس لدعم 8 وب SUpport‏ يقيس نسبة سجلات البيانات التي تحتوي على كل 
من الشرط السابق A‏ والنتيجة اللاحقة © في قاعدة الاقتران AC‏ ویعرف بأنه: 


support(A > C) = support(AUC), )۲-۱۲( 


حيث U C‏ 4 عبارة عن اتحاد لمجموعة polial‏ 4 ومجموعة العناصر C‏ وتحتوي على 
polis‏ من 4 Co‏ استناداً إلى التعریف» پکون لدینا: 

support(@ > C) = support(C) 

support(A ¬+ Ø) = support(A). 


على سبيل اطثال: 


support ({x5} > {x7}) = support({xs} U {x7}) 
= support({xs5,x7}) = 0.22 


support ({x5} > {x9}) = support({xs} لا‎ {x9}) 
= support({xs5,Xo}) = 0.22. 


مقياس الثقة أو confidence (A>C)‏ يقيس نسبة سجلات البيانات المحتوية على 
الشرط السابق 4 والتي بدورها Lal‏ تحتوي على النتيجة اللاحقة C‏ ويعرف بأنه: 


support(A UC 
confidence(A > C) = تاه تاد‎ )۲-۱۲( 


استناداً إلى التعریف» یکون لدینا: 


ELE A E‏ سس[ 
Yat‏ استکشاف البیانات: نظريات وخوارزمیات وأمثلة 


خوار زمیات Seah bial ascii‏ والاقتر ان 


: E ERE 
0 C) = سس‎ = — = t(C 
confidence(@ ¬» C) support) 1 support(C) 
t(A 
confidence(A > Ø) = تست‎ = 


على سبيل المثال: 


support({xs} لا‎ {x7}) _ 0.22 


support({xs}) 2 ad 


confidence({x;} > {x7}) = 


2. 
1 5 2 واو ل کا = confidence({xs} > {x9})‏ 


إذا كان الشرط السابق A‏ والنتيجة اللاحقة C‏ مستقلتين عن بعضهما و()) support‏ له 
قيمة عالية (وهو ما يعني وجود النتيجة اللاحقة في العديد من سجلات البيانات في مجموعة 
البیانات)» support (A U C) ob‏ سيكون له قيمة عالية C OV‏ موجودة في العديد من 
سجلات البيانات التي تحتوي lal‏ على A‏ ونتيجة لذلك. نحصل على dad‏ عالية ل 
support (AC)‏ و confidence (AC)‏ على الرغم من کون Co A‏ مستقلتين عن 
بعضهما واقتران AC‏ يكون له فائدة قليلة. على سبيل الثال. إذا تم احتواء مجموعة 
العناصر ٣‏ في كل سجل بيانات في مجموعة البیانات» يكون لدينا: 


support(A > C) = support({A U C) = support(A) 


support(A U C) 5 support(A) 
confidence(A > C) = support(A) DDO) =1 


استكشاف البيانات: نظریات وخوارزمیات وأمثلة rao‏ 


موجودة في كل سجل بیانات» ومن ثم فان أي مجموعة Le polis‏ في ذلك A‏ تقترن مع 
©. وبلعالجة هذه المسألةء يتم تعريف مقياس العون, أو dift (AC)‏ على أنه: 


confidence(A >C) _ support(A UC) (e1۲) 
support (€) ` support(4) x support(C) ' 


إذا كان الشرط السابق A‏ والنتيجة اللاحقة C‏ مستقليتين عن بعضهما ولكن الدعم (C)‏ 
support‏ له قيمة مرتفعة فان هذه القيمة المرتفعة تعطي قيمة منخفضة ل lift‏ 
(AC)‏ على سبيل امثال: 


lift(A > C) = 


confidence ({x5} =» {x7}) _ = 


lift({xs} > {x7}) = spent OSE. 1.79‏ 
هو لوكا كفت = ررم + یدنا 


الشكل (۱-۱۲) 
نظام تصنيع يحتوي على تسع آلات وخط إنتاج وحدات gabl‏ 


گم گم 
5555 
OOS‏ 
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۲۹۹ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوارز زميات لامتكشافٍ bul‏ العنقود والاقتر ان 


یکون لقواعد الاقتران, }27{ — {x5}‏ وإو× ) — {x5}‏ نفس قیم مقیاس الدعم 
(support)‏ والثقة (confidence)‏ ولکن قیم مختلفة ممقياس العون (LY)‏ ومن ثم. یظهر 
أن xs‏ یکون لها Sb‏ أكبر على تکرار x9‏ أكثر من تکرار x7‏ الشکل ۱-۱ الذي يتم نسخه في 
الشکل ۱-۱۲ يعطي تدفقات وخط gli]‏ وحدات النتج لمجموعة البیانات في الجدول ۱۲- 
.١‏ كما هو مبين في الشکل ۱-۱۲ تذهب وحدات النتج التي تتدفق من خلال الآلة الخامسة 
MS‏ إلى الآلة السابعة M7‏ والآلة التاسعة MI‏ ومن ثم. ينبغي أن یکون ل X5‏ نفس التأثیر 
على 7× و.و۲ . لکن» وحدات النتج المتدفقة خلال UM‏ السادسة M6‏ تذهب أيضاً إلى الآلة 
السابعة M7‏ وتکون 7× أكثر تکراراً من 3X9‏ مجموعة البیانات» مما ينتج عنه قيمة عون 
(if)‏ أقل J‏ إ7 ج x5}‏ { من تلك ل {xo}‏ ج x5}‏ ). وبعبارة أخرىء فان 7 لا تتأثر ب 
x5‏ فحسب» بل أيضأ ب 6× و 3× كما هو مبين في الشکل ۰۱-۱۲ مما یجعل x7‏ تظهر أقل 
اعتماداً على 5< OY‏ مقیاس العون (lift)‏ یعالج مسألة استقلالية کل من الشرط السابق 
والنتيجة اللاحقة من خلال قيمة عون منخفضة. 


:(Association Rule Discovery) اکتشاف قاعدة الاقتران‎ ۲-۲۳ 


يستخدم اکتشاف قاعدة الاقتران (association rule discovery)‏ للعئور على 
جميع قواعد الاقتران التي تتجاوز الحد GoM‏ للحدود (thresholds)‏ في مقاييس معينة 
للاقتران. baleg‏ ما تكون مقاييس الدعم (confidence) es (support)‏ يتم ely‏ 
قواعد الاقتران باستخدام مجموعات عناصر متكررة التي 3 تحقق الحد jl‏ من الدعم. 
بإعطاء مجموعة بيانات من سجلات البيانات المكونة من عدد p‏ من العناصر كحد أقدى, 
فمن شأن مجموعة العناصر أن تكون ممثلةٌ على النحو التالي Xp)‏ ,... 2 0 =× أو 
dEl... p xml‏ حيث ان 7 = تشبر إلى وجود العتصر رقم ۶ في مجموعة العناصر. 
les‏ أن هناك عدد 27 من الترکیبات الممكنة للقیم املختلفة ل (متد...» (Xi‏ فهناك مجموعات 
عناصر مختلفة وممكنة عددها (1- ?2( لعدد 1 إلى من العناصی ماعدا امجموعة الفارغة 
طمثلة ب (0 ,... ,0( ومن غير العملي القیام بفحص شامل لقيمة مقیاس الدعم 
(support)‏ لكل واحد من مجموعات العناصر الختلفة المکنة (1- ?2( 


تقدم خوارزمية آبريوري (الشبقیة) (Agrawal and (Apriori algorithm)‏ 
Srikant, 1994)‏ إجراء Ved‏ لتولید مجموعات العناصر المتكررة من خلال الأخذ في 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۹۷ 


الجزء الثالث 


الاعتبار n‏ مجموعة ae 5 ey y pier‏ مجموعة عناصر N‏ إلا m‏ كانت جميع 
Ole goat!‏ الفرعية منها هي مجموعات عناصر متكررة. یوضح الجدول ۲-۱۲ خطوات 
خوارزمية آبريوري (الأسبقية) لمجموعة بیانات محددة D‏ 


في الخطوة ۵ من خوارزمية أبريوري (الأسبقية). يكون لجموعتي العناصر من Fii‏ 
العناصر نفسها من Xren Ni?‏ وتختلف مجموعتا العناصر فقط في pais‏ واحد بکون زد 
موجودةٌ في مجموعة pais‏ واحد و :ا موجودة في مجموعة polis‏ آخری. يتم بناء مجموعة 
عناصر مرشحة ل Fi‏ من خلال إدراج 2ل...ء X‏ (العناصر المشتركة لجموعتي العنصر من 
(Fit‏ و دنت و ند على سبيل JU‏ إذا كانت X3}‏ « دين [X7‏ هي مجموعة متكررة بثلاث 
عناصر » فان أي تشكيل مكون من عنصرين من هذه المجموعة المتكررة » AXI XI}‏ }3 
2« أو fxr xa}‏ يجب أن يكون مجموعة متكررة بعنصرين. وهذا يعني أنه إذا كان 
support ({x1 x2 « x3})‏ أكبر من أو يساوي الحد الأدنى ees‏ فان X2})‏ « 27( 
support ({x1 «x3}) «support ({x2 «x3}) support‏ يجب أن يكون أكبر من أو 
يساوي الحد GoM!‏ للدعم. ومن ثم المجموعة GIS 2) Schl‏ الثلاث عناص e X3}‏ دى 1 AX‏ 
يمكن بناؤها باستخدام اثنين من مجموعاتها الفرعية ذات العنصرين والتي تختلف 
في pais‏ واحد فقط X2}‏ « ندا X3}g‏ < رت x3} {x2 < x3} < « X2}‏ « با Ax2 « X3}9‏ 
thls‏ فإن أي مجموعة متكررة ذات  pais‏ يجب أن GE‏ من مجموعات متكررة ذات 
pas (i - /)‏ والتي تختلف في pais‏ واحد فقط. تقلل هذه الطريقة clit‏ مجموعة عناصر 
مرشحة ل إ۴ وبدلالة dale‏ من عدد مجموعات العناصر المرشحة Fit‏ التي سيتم تقييمها 
في الخطوة ۷ من الخوارزمية. 

یوضح ULM‏ ۱-۱۲ استخدام خوارزمية أبريوري (الأسبقية). عندما تکون البیانات متناثرة 
cuss (sparse)‏ ن یکون كل pais‏ غير متکرر نسبیاً في مجموعة البیانات» تکون خوارزمية 
أبريوري (الأسبقية) فعالة حيث آنها تعطي laal fous‏ من مجموعات العناصر By Sahl‏ 
بحيث يحتوي عدد قليل منها على أعداد كبيرة من العناصر. وعندما تكون البيانات كثيفة 
(dense)‏ تكون خوارزمية أبريوري (الأسبقية) أقل كفاءةٌ وتعطي Tous‏ كبيراً من مجموعات 
العناصر المتكررة. 


RS Ga e کت 2 — 177 ف‎ ppp T T LE A MS TT 
استكشاف البيانات: نظریات وخوارزميات وأمثلة‎ YAA 


إرزميات لاستكشاف أنماط العنقود والاقتران 
S‏ ا ۱ ل ا ا ا 


الجدول )17-¥( 
خوارزمية أبريوري (الأسبقية) (Apriori Algorithm)‏ - (إنجليزي وعریی) 


Description of the Step 
F, = (frequent one-item sets} 
i=1 
while F; # Ø 
و و‎ + 1 
C= وتا‎ ener Xp Mente XI | ید مأ‎ Fry Zt € رح‎ and 
بدأ‎ -os Xoy Z3 € Fg} 
for all data records Se D 
for all candidate sets Ce C, 
if S2C 
C.count = C.count+1 
F; = [C] Ce G and C.count > minimum support} 
11 return all F,,j=1, ..., ۶-1 


Swe aN به‎ eee 


الخطوة الوصف 
١‏ لتكن ,۶ = } مجموعات متكررة ذات عنصر-واحد) 
i=] ۲‏ 
Y‏ کرر (WHILE)‏ مادام أن © FIE‏ 
3 [ + ز < ز 
(xy, xiz} © Fes} o‏ فصو بر > Xi} | { X1, ken xi‏ ند مد ماع 
0 
۷ لكل مجموعات العناصر المرشحة CEG‏ 
A‏ إذا S2C ws (if)‏ 
C.count = C.countt+1 4‏ 
۰ (مقياس الدعم الاد Fı= {C|C Crand C.count>‏ 
1١‏ رجع كل مجموعات العناصر Fy‏ » حيث 21 ,... ,1 > ژ 


استکشاف البیانات: نظریات وخوارژمیات وأمثلة ۳۹۹ 


من مجموعة البيانات في الجدول ۱-۱۲ قم بإيجاد JS‏ مجموعات العناصر المتكررة 
ذات مقياس الدعم بقيمة حد Gal‏ تساوي0.2 أو )0.2 (min- support=‏ بفحص مقياس 
الدعم لكل مجموعة pols‏ بعنصر واحدء نحصل على: 


3 

F, = fta) support = 8 0.33, 
2 

{xg}, support = g = 0.22, 
2 

{xg}, support = 57 0.22, 
5 

{x}, support = oe 0.56, 
4 

{xg}, support = 57 0.44 
3 


{xg}, support = 37 033 


باستخدام مجموعات العناصر المتكررة ذات للعنصر الواحد لتکوین ایلجموعات المتكررة 


3 
Fi, = 8 Xg}, support = 37 0.33, 
2 
{xg, X7}, support = 5= 0.22, 
2 
{xg, Xg}, support = a7 0.22, 
2 
{xe X7}, Support = a> 0.22, 
2 
{x7, X9}, support = 5 0221 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


خوار زمیات لاتكشاف tal‏ العنقود والاقتران 


حيث إن X7}‏ وح [وتد. {X5‏ و [وتد. {x7‏ تختلف عن بعضها البعض 5 pais‏ واحد فقط 
فيتم استخدامهم cli‏ مجموعة ذات ثلاثة polis‏ إو {x5 X7‏ - مجموعة الثلاث polis‏ 
الوحيدة التي يمكن بناؤها: 


2 
F; = To Xə} support = 9 022} 


لاحظ أن بناء مجموعة ذات ثلاثة عناصر من مجموعات ذات عنصرين والتي تختلف 
في أكثر من pais‏ واحد لا يعطي مجموعة متكررة ذات ثلاثة عناصر. على سبيل JEM‏ 
{x4 Xe}‏ و[ « {x5‏ هي مجموعات متكررة GIS‏ عنصرين والتي تختلف في عنصرين. 
المجموعات X5}‏ ء X7}9 (X‏ . مدال [x8 xs}‏ و[7<* ء {x8‏ ليست مجموعات متكررة ذات 
عنصرين. يتم بناء أي مجموعة بثلاث polis‏ باستخدام e Xa}‏ 4 و[7* »> و×) على سبيل 
X5 » Xs} JÈL‏ وعداء ليست مجموعة متكررة مكونة من ثلاثة polis‏ نظراً لأنه ليس كل 
زوج بعنصرين مكون من {x4 X5 » Xa}‏ هو مجموعة متكررة ذات عنصرين. على وجه 
التحدید, فإن X5}‏ » 24] وإد×» {x8‏ ليست مجموعات متكررة ذات عنصرين. 

نظراً لوجود مجموعة واحدة متكررة فقط مكونة من ثلاثة عناصرء فلا يمكننا توليد 
مجموعة مرشحة مكونة من أربعة عناصر في الخطوة © من خوارزمية أبريوري (الأسبقية). 
وهذا يعني آن. 9 دو ونتيجة لذلك. فان © = Fe‏ 3 الخطوة ۲ من خوارزمية أبريوري 
(لأأسبقیة)» ونقوم بالخروج من تعليمة التکرار (WHILE)‏ في الخطوة ۱۱ من خوارزمية 
آبريوري (الأسبقیة)» نقوم بجمع جمیع مجموعات العنصر المتكررة التي نحقق min-‏ 
support= 2‏ 


1265 ۰267 Xo} AL? . Xo} {X6 ء‎ X7} ANS « XG) ANS X7} Ag او‎ {Xof {xa} {X7} d Xal {XS} { X4} 
:)۲-۱۳( ابلثال‎ 


قم پاستخدام مجموعات العناصر المتكررة من URI‏ ۱-۱۲ لتولید جميع قواعد الاقتران التي 
تحقق الحد الأدى لدعم 0.2 min- support=‏ والحد الأدق للثقة min-‏ 
confidence= 0.5‏ 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۰ 


الجزء الثالث 


JS ۳۳۷‏ مجموعة 79 E)‏ التي 3 تم Upami‏ عليها من JULI‏ ۰۱-۱۲ نقوم 
بتولید کل من قواعد الاقتران التالية, +4 التي تحقق 

AUC=F, 

ANC ع‎ ©, 


: min-confidence والحد الأدنى للثقة‎ min-support معايير الحد الأدنى للدعم‎ 
Ø ¬ {x,}, support = 0.33, confidence = 0.33 
Ø ¬ {xs}, support = 0.22, confidence = 0.22 
0 -> {xe} support = 0.22, confidence = 0.22 
Ø -> {x,}, support = 0.56, confidence = 0.56 
بد‎ {xg}, support = 0.44, confidence = 0.44 
> {x}, support = 0.33, confidence = 0.33 
> {x,, xe}, support = 0.33, confidence = 0.33 
Ø ¬ {x., xy}, support = 0.22, confidence = 0.22 
Ø ¬+ {x Xo}, support = 0.22, confidence = 0.22 
0 ¬+ {xe x}, support = 0.22, confidence = 0.22 
Ø ¬ {x>, xy}, support = 0.22, confidence = 0.22 
Ø -> {xs 3 support = 0.22, confidence = 0.22 
{x4} > Ø, support = 0.33, confidence = 1 
{xs} > Ø, support = 0.22, confidence = 1 
{xg} > Ø, support = 0.22, confidence = 1 
{xy} > Ø, support = 0.56, confidence = 1 
{xg} > O, support = 0.44, confidence = 1 
{xg} > Ø, support = 0.33, confidence = 1 
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استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ ۳0 


خوارزميات لاستكشاف أنماط العنقود والاقتران 
ی TE IDLE e UMN‏ لال ITO TIYE. ete‏ 7 


OTITIS TRISTE 


{x4,xg} > Ø, support = 0.33, confidence = 1 
{xs,x7} > Ø, support = 0.22, confidence = 1 
{xs, xg} > Ø, support = 0.22, confidence = 1 
{xg, xy} > Ø, support = 0.22, confidence = 1 
{x7, xg} > Ø, support = 0.22, confidence = 1 


{xs, X7, xg} > Ø, support = 0.22, confidence = 1 
{x,} > {xg}, support = 0.33, confidence = 1 
{xs} > {x7}, support = 0.22, confidence = 1 
{x5} ¬ {xg}, support = 0.22, confidence = 1 
{xe} > {x7}, support = 0.22, confidence = 1 

{x7} > {xg}, support = 0.22, confidence = 0.39 

{xg} > {x4}, support = 0.33, confidence = 0.75 

{x7} > {xs} support = 0.22, confidence = 0.39 

{xo} > {xs}, support = 0.22, confidence = 7 

{xy} > {xg}, support = 0.22, confidence = 0.39 

{xg} > {x7}, support = 0.22, confidence = 0.67 

{x5} > {x7, xg}, support = 0.22, confidence = 1 

{x7} > {xs, xo}, support = 0.22, confidence = 0.39 
{xg} > {xs, x7}, support = 0.22, confidence = 0.67 

{x7, xg} > {xs}, support = 0.22, confidence = 1 

fxs, xg} > {x7}, support = 0.22, confidence = 1 

{xs, x7} > {xg}, support = 0.22, confidence = 1 


بإزالة كل قاعدة اقتران في شكل © + '/. نحصل على المجموعة النهائية من قواعد الاقتران: 


{x4} > Ø, support = 0.33, confidence = 1 
{xs} > Ø, support = 0.22, confidence = 1 
{xg} > Ø, support = 0.22, confidence = 1 
{x7} > Ø, support = 0.56, confidence = 1 
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{xg} > Ø, support = 0.44, confidence = 1 


{xq} > ©, support = 0.33, confidence = 1 
{x4,Xg} > Ø, support = 0.33, confidence = 1 
{xg x7} > Ø, support = 0.22, confidence = 1 
{xs, xg} > Ø, support = 0.22, confidence = 1 
{xe x7} > Ø, support = 0.22, confidence = 1 
{x7 X9} “+ Ø, support = 0.22, confidence = 1 

{xg, X7, xg} > Ø, support = 0.22, confidence = 1 
{x4} > {xg}, support = 0.33, confidence = 1 
{xa} > {x4}, support = 0.33, confidence = 0.75 
{x5} > {xz}, support = 0.22, conf idence = 1 
{xs} > {xo}, support = 0.22, confidence = 1 
{xs} > {x7, xg}, support = 0.22, confidence = 1 
,ود‎ x9} > {x7}, support = 0.22, confidence = 1 
{xg, x7} > {xg}, support = 0.22, confidence = 1 
{xg} > {xs}, support = 0.22, confidence = 0.67 
{xg} + {x7}, support = 0.22, confidence = 0.67 
{xg} > {x5, x7}, support = 0.22, confidence = 0.67 
{x7, x9} > {xg}, support = 0.22, confidence = 1 
{xg, x7} > Ø, support = 0.22, confidence = 1 


في هذه المجموعة النهائية من قواعد الاقتران, لا تخبرنا كل قاعدة اقتران في الشكل © 
ج F‏ عن الاقتران بين مجموعتي polie‏ ولكن عن وجود مجموعة العناصر ۴ في مجموعة 
البیانات» ومن ثم يمكن تجاهلها. تكشف قواعد الاقتران اممتبقية عن الارتباط الوثيق ل 4× 
مع ۵:8 و 2:5 مح 27 و وک و 36 مع 7ء الأمر الذي يتطابق مع تدفقات الإنتاج في الشكل 
؟١-1.‏ ومع ذلك. لا يتم إيجاد تدفقات الإنتاج من MI Jo UM‏ والثانية M2‏ والثالثة 
3 في مجموعات العناصر المتكررة ولا في المجموعة النهائية من قواعد الاقتران بسبب 
الطريقة التي يتم فيها أخذ عينات مجموعة البيانات من خلال النظر في جميع الأعطال 
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خوار زمیات ۷ لامتكشاف أنماط العنقود والاقتران 


ELIS ESPACE IM Se TIENEN 


الآلية الأحادية. وحيث إن الآلة الأولى MI‏ والثانية M2‏ والثالثة M3‏ هي في بداية تدفقات 
الإنتاج ويتأثرن بأنفسهن فقط. فإن كل من X1‏ 3,22 تظهر بشكل آقل تكراراً في مجموعة 
البيانات مقارنة ب 4< إلى X9‏ ولنفس السبب» تكون قيمة الثقة (confidence)‏ لقاعدة 
الاقتران {x5}‏ ج fx}‏ أعلى من تلك لقاعدة الاقتران {x4}‏ ج (وید ). 

يتم تطبيق اكتشاف قاعدة الاقتران على البيانات الرقمية. ولتطبيق اكتشاف قاعدة 
الاقتران تحتاج البيانات الرقمية إلى أن يتم تحويلها إلى بيانات نوعية من خلال تعريف 
نطاقات قيم البيانات كما تم مناقشته في الجزء ۳-۶ من الفصل ۶ ومعاملة القيم في نفس 
النطاق باعتبارها من العنصر نفسه. 


۲-۲ البرمجيات والتطبيقات (Software and Applications)‏ 
يتم يدعم اكتشاف قاعدة الاقتران من خلال استخدام برنامج 
(hitp://www.cs.waikato, ac.nz/ml/weka) Weka‏ 
والبرنامج 
(www.statistica.com) Statistica‏ 
هكن العثور على بعض تطبيقات قاعدة الاقتران في يي )2 (Ye, 2003, Chapter‏ 
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الجزء الثالث 


(Exercises) التمارين‎ 

١-١‏ انظر في سجلات البيانات ال ١١‏ في مجموعة البيانات الاختبارية لاكتشاف أعطال 

النظام في الجدول ۲-۳ باعتبارها ٠١‏ مجموعة من العناصي من خلال أخذ رند 2ت 

X8 0۲7 066 X5 ۵۲4 3‏ ود كتسع مشاكل جودة مختلفة وبقيمة 1 تشير إلى وجود 

مشكلة جودة معينة. أوجد جميع مجموعات العناصر المتكررة ذات الحد GM‏ 
للدعم -min-support=0.2‏ 


۲-۲ استخدم مجموعات العناصر المتكررة من التمرين ۱-۱۲ لتوليد جميع قواعد الاقتران 
التي تحقق الحد الأدنى للدعم min-support=0.2‏ والحد الأدنى للثقة min-‏ 
.confidence=0.5‏ 


۳-۲ كرر التمرين ۱-۱۲ لجميع سجلات البيانات البالغة ۲۵ من الجدول ۱-۱۲ والجدول 
۲-۳ باعتبارها مجموعة البيانات. 

۲ كرر التمرين ۲-۱۲ لجميع سجلات البيانات البالغة ۲۵ من الجدول ۱-۱۲ والجدول 
۲-۳ باعتبارها مجموعة البیانات. 

۷۲ لتوضیح أن خوارزمية أبريوري (الأسبقية) تعد فعالة مجموعة بیانات متناثرة قم 
بایجاد أو إنشاء مجموعة بیانات متتاثرة بحیث يكون كل عنصر غير متکرر نسبياً في 
مجموعة blll‏ وقم بتطبيق خوارزمية آبريوري (الأسبقية) على مجموعة البیانات 
لاستخراج مجموعات polie‏ متكررة وبقيمة مناسبة للحد الأدنى للدعم min-‏ 
Support‏ 

1-١‏ لتوضيح أن خوارزمية أبريوري (الأسبقية) usd‏ أقل فعالية لجموعة بيانات كثيفة, قم 
بإيجاد أو إنشاء مجموعة bly‏ كثيفة بحيث يكون كل عنصر متكرراً نسبياً في 
سجلات بيانات مجموعة البیانات» وقم بتطبيق خوارزمية أبريوري (الأسبقية) على 
مجموعة البيانات لاستخراج مجموعات polis‏ متكررة وبقيمة مناسبة للحد الأدلى 
للدعم min-support‏ 


۳۰۹ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوار زميات ل لامتكماف bul‏ قنور والاقتران 


Bayesian network 


يتطلب مصنف بییز (Bayes classifier)‏ في الفصل ۲ أن تكون جميع متغيرات 
الخاصية مستقلة عن م البعض. شبكة بییز (Bayesian network)‏ في هذا الفصل 
تسمح بالاقتران (association)‏ بين متغيرات الخاصية نفسها وبالاقتران بين متغيرات 
الخاصية ومتغيرات الهدف. تستخدم شبكة بييز اقتران المتغيرات لاستنتاج المعلومات عن أي 
متغير في شبكة بییز. في هذا الفصل» نستعرض البنية (structure)‏ الخاصة بشبكة بییز 
ومعلومات الاحتمال الخاصة بالمتغيرات في شبكة بييز. ثم نقوم بوصف الاستدلال الاحتمالي 
(probablitistic inference)‏ الذي يتم إجراؤه داخل شبكة بييز. drole‏ نستعرض طرق 
oles‏ البنية ومعلومات الاحتمال الخاصة بشبكة بییز. وترد قائمة من حزم البرمجيات التي 
تدعم شبكة بييز. ويتم إعطاء بعض تطبيقات شبكة بييز مع مراجعها. 
١-١‏ بنية شبكة بييز والتوزيعات الاحتمالية للمتغيرات 
(Structure of a Bayesian Network and Probability Distributions‏ 
of Variables):‏ 
في القصل ۳ء يستخدم مصنف zus‏ البسيط (naive Bayes classifier)‏ المعادلة -Y‏ 
0 (كما سيتم توضيحها لاحقاً) لتصنيف قيمة متغير الهدف y‏ على أساس افتراض أن متغيرات 
الخاصية, Xie. Xp‏ تكون مستقلة عن بعضها البعض: 
2 


Ymar © arg MAXyey p(y) | | P(x; ly). 
تقترن بعش متغيرات الخاصية بطريقة معينة. على سبيل‎ light ومع ذلك ففي کل من‎ 
المثاله في مجموعة بيانات اكتشاف أعطال النظام المبينة في الجدول ۱-۳ والتي تم نسخها هنا‎ 
كما هو موضح في الشكل ۰۱-۱ والتي تم نسخها‎ X9 الجدول ۱-۱۳ تقترن امع و ۰27 و‎ 3 
والتاسعة ۸۸9 على خط‎ M7 والسابعة‎ MI هنا في الشكل ۱-۱۳ تكون الالات الخامسة‎ 
MI ولكن الآلة الأولى المعطلة‎ MI إنتاج وحدات النتج التي يتم معالجتها في الآلة الأولى‎ 
x=] حيث إن‎ MI تتسبب في تراجع جودة وحدات المنتج بعد مرورها من الآلة الأولى‎ 


bee 


والذي بدوره يسبب أن تكون عون x7=165‏ ‘ وأخيراً [=ود . وعلى الرغم من أن AS xX‏ 
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الجزء الثالث 


على 5 9X7‏ 269 فان كل من XS‏ 7× » و ونا لا تؤثر على ,د ومن ثم» فان اقتران السبب- 
التأثير (cause-effect association)‏ ل × مع «X7 X5‏ و X9‏ يتجه في اتجاه واحد فقط. 
علاوةٌ على ذلك لا تقترن XI‏ مع المتغيرات الأخرى X85 X6 X4 X3 X2‏ 

تحتوي شبكة بييز على (nodes) sie‏ لتمثيل المتغيرات Lg)‏ في ذلك متغيرات الخاصية 
attribute variables -‏ - ومتغرات الهدف - (attribute variables‏ وروابط موجهة 
بين العقّد لتمثيل الاقترانات الموجهة بين المتغيرات. وبفرض أن يكون لكل متغير مجموعة 
محدودة من الحالات أو القيم. يوجد رابط موجة من عقدة تمثل المتغير × إلى عقدة تمثل 
المتغير زد إذا كانت :× لها تأثير مباشر على رد على سبیل المثالء :× تسبب Ay‏ أو يؤثر Xi‏ على 
د بطريقة ما. في رابط موجه من Xi‏ إلى زك تكون :× هي أب ل يت و ز× هي ابن ل زد من 
غير اللسموح وجود دواثر موجهة (directed cycles)‏ على Xp—>X2—> JEL Juw‏ 
x‏ جسوين في شبكة بييز. ومن ثم, فان بنية شبكة بيبز هي رسم Sls‏ مفتوح وموجه 
(directed, acyclic graph)‏ 


الجدول (۱-۱۳) 
مجموعة البیانات التدريبية الخاصة باکتشاف أعطال نظام تصنیع 


- متغیر الهدف‎ 
Target Variable 
عطل النظام‎ 
(System Fault), y 


رقم الحالة - Instance‏ متغيرات الخاصية - Attribute Variables‏ 
(الآلة امعطلة - 
{Faulty Machine‏ 


Quality of Parts - جودة وحدات المنتج‎ 


1 (M1) 
2(M2) 
3(M3) 
4(M4) 
5(M5) 
6(M6) 
7(M7) 
8(M8) 
9(M9) 
10(none) 


O = مس‎ e o u es = = m= 
تي = نو‎ ©0 © = CO تت‎ Cc. 
oor oo نس ندا سا و‎ 5 
ceo or rr oro = 
eo سس هي هه‎ COO = OS 
۵ © 2ت = © وت‎ © Cc 
coo و( هب‎ Cc GG = = سس‎ 2 
O OGG coc 4 = & تت‎ 
OO 2ت = © 252 © ته هت تب‎ 
2 GG CG © O ~ O O ©0 = 


YA‏ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوارزميات لاستكشاف أنماط العنقود والاقتران 


وعادةٌ ما يتم استخدام مجال المعرقة (الذي تم جمع البيانات منه) لتحديد كيفية ارتباط 
التغیرات. على سبيل SEL‏ تدفق إنتاج وحدات المنتج في الشكل ۱-۱۳ يمكن استخدامه 
لتحديد بنية شبكة بييز الموضحة في الشكل ۲-۱۳ والتي تتضمن تسعة متغيرات خاصية 
لجودة وحدات آلنتج في مراحل مختلفة من الإنتاج X8 267 XG XS KA X3 HINA‏ و X9‏ 
ومتغير الهدف للإشارة لوجود أعطال بالنظام» نز في الشكل ۲-۱۳ ولالديها أب واحد x‏ و 
ما لديها أب واحد ويد و ew x4‏ آبوان 2× و 73 و وتالديها أب واحد 5 و 7× لديها أبوان 
x5‏ و ۵۲7 و و لدیها أب واحد ب yg‏ لديها ثلائة آياء 7ت و X8‏ و ود بدلا من رسم رابط 
موجه من كل من متخبرات الجودة التسعة X9 X8 ۵77 ۵:6 ۵:5 ۵:4 XZ AIA‏ إلى متغير 
أعطال النظام y‏ فان لدينا رابط موجه من كل من متغيرات الجودة الثلاثة. ۵7 وين وند إلى 
متغير أعطال النظام y‏ نظرأ xg 7 OY‏ و x9‏ في المرحلة الأخيرة من تدفق الإنتاج وتأخذ 
التأثير من ر دک XS X4 X3‏ رونا على Y‏ 

إذا كان لدنيا المتغير تد وله الآباء Ze‏ ر فان شبكة بییز تستخدم التوزيع الاحتمالي 
المشروط p (x| 2۱,۰... Zk) (conditional probability distribution) J‏ لقياس 
تأثير الآباء +2 ....,:2 على الابن عد على سبيل JEL‏ فإننا نفترض أن الجهاز ا مستخدم لفحص 
جودة وحدات المنتج في مجموعة بيانات اكتشاف أعطال نظام التصنيع لا يتم الاعتماد عليه 
0 % مما يؤدي إلى إنتاج بيانات غير يقينية (data uncertainties)‏ وتوزيعات 
احتمالية مشروطة في الجداول من ۲-۱۳ وحتى ۱۰-۱۳ للعمّد التي لها أب (آباء) 
في الشكل ۲-۱۳. على سبيل المثالء في الجدول ۲-۱۳ P(xs=O| x1=1)=0.1‏ 
و 0.9-(1- | [ح-وهم تعني أنه إذا كانت ۲/7 فإن احتمال x5=0‏ هو 0.1 واحتمال 
أن [=و× 0.950 واحتمال وجود أي من هاتين القيمتين (0 أو 1) ل 5× هو [=0.1+0.9. 
يعود سبب عدم حصولنا على الاحتمالية 1 ل />-ك< إذا كانت /-/2 إلى أن جهاز الفحص 
ل xy‏ لدية احتمال صغير للتعطل. وعلی الرغم من أن أجهزة الفحص تشير إلى أن x=]‏ 
إلا أن هناك احتمالاً صغيراً x7 ob‏ يجب أن تكون صفراً. وبالإضافة إلى US‏ فان جهاز 
الفحص ل x5‏ لديه أيضاً احتمال صغير للتعطل, وهذا يعني أن جهاز الفحص رها يشير إلى 
أن x5=0‏ على الرغم من أن x5‏ ينبغي أن تكون 1. احتمالات التعطل لأجهزة الفحص تنتج 
بيانات غير يقينية. ومن ثم يكون لدينا الاحتمالات المشروطة في الجداول من ۲-۱۳ وحتى 
rah‏ 
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الشكل )4-49( 
نظام تصنيع بتسع آلات وتدفقات إنتاج لوحدات المنتج 


E‏ عد 
we‏ 
5-6 


الشكل (۲-۱۳) 
البنية (structure)‏ الخاصة بشبكة بییز مجموعة بيانات اكتشاف أعطال نظام التصنيع 


See 
G2 Geo 
ی‎ 


me AT LT TTL FT ببس سس«‎ a P 
استکشاف البیانات: نظریات وخوارزمیات وأمثلة‎ ۳۹۰ 


خوارزميات لدف tel‏ العنقود والاقتران 


)۲-۱۲( الجدول‎ 
P(xs| x1) 
x=} x1=6 
PQxs=Ipr=1)=0.9 ۳۵۵1۳۱۰0-035  xs=1 


الجدول (۲-۱۳) 
P(xs| x3)‏ 
20 ود x3=1‏ 
فد 0207 0و۳ Pos=0k=1)=0.1‏ 
21 :3 3 - (0< 1۳ <۳)۶ 0,9 <(۱ 2 رمع < و۳ 


الجدول (۱۳-ع) 
P(xa| x3, x2)‏ 
x2=0‏ 
0 < وید x3=1‏ 
0 - بهد 7 = (0 = x3‏ ,0 < وجح |0 P=‏ 0.1 (1 2 و ,0 = ير |0 < ۳6 
1 < 2 3 = )0 2 ود ,0 ديج I]‏ ديبم 0.9 <(۱ د رع ,0 - يد |] ديم 
1 < رید 
0 - وب 1 < ود 
0 ديح 0.1 > (0 > بع ,1 > يج |۳0 0.1 ۱(<۶ 2 ود ,ا ديرج |0 < ۳ 
1 2 بد 9- )0 P@e= 1] x2=1,23=1)=0.9 8), > l|x2= 1, x=‏ 
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الجزه الثالث 


{0-11} الجدول‎ 
P(x9| x5) 
ويد [ < ويد‎ < 0 
و۳‎ = 0۳: = 1)= 0.1 P(x9 = Ofxs = 0} = 0.7 ع وير‎ 0 
P(xp=Ipts=1)=0.9 ۳0۵۱۲۰0203  x=1 
(1-19) الجدول‎ 
P(x9| Xs, xa) 
xs=0 
x =1 x= 0 
P(x7=O0[xs=O,x6=1)=0.1 ۳۵۶ > 0| xs = 0, x6 = 0) = 7 x7=0 
درم‎ I|xs=O,x6=1)=0.9 ۳0۶ < 1| x5=0, x5 = 0) = 3 x7=1 
xs=1 
1۲6 < 1 د‎ 20 
ود 0 دنم‎ 1, 22 ۱(<۶0۱ P(x? 02۶ < l, xs=0}= ۱ x7=0 
P(x? = ودرا دود[‎ (۶09 ۳6 I] xs = 1, x6 =0) = 0.9 x72] 
)۷-۱۳( الجدول‎ 
P(xs| x4) 
xs=1 ديد‎ 0 
ديجم‎ Ox = )= 0.1 ۲۳۵۸۶0۳۶0۰07 ۰ xu =0 
P(xs= ۱۳2۱۶09 ۳6۵۶۱۳۸۶۵ 20.3 ۰ xs=1 


۳۳ 
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خوار زمیات ات أنماط ا والاقتران 


الجدول (۸-۱۳) 


0 = وید 1[ -ود 
y=‏ و۳000 ۳0۲-۱۶0۱ 
y=1‏ 12021 دنم ۱(۶۵9 ۱۳9 ۳ 


الجدول )4-48( 


۲7 < 1 x7=0 
P(y = Ofx7 = 1) = 0.1 PO = 0+ = 0) = 9 y=0 
P(y = م۱۳‎ = 1) = 0.9 Py = ۱۳۶ = 0) = 0.1 y=l 


الجدول (۱۰-۱۳) 


3۲ < 1 ۲۶ 20 
P(y = Olxs = 1( = 1 P{y = 0۲ = 0) = 0.9 y= 
P(y = I xs = 1) = 9 ۲۳۵ = Ihs = 0) = 1 y=l 


بالنسية لعقدة المتغير × في شبكة بييز التي لا يوجد لديها آباءء هناك حاجة للتوزيع 
الاحتمالي السابق (prior probability distribution)‏ ل × على سبيل JGL‏ في شبكة 
بییز في الشكل ۲-۱۳ فان X2 Xr‏ » و X3‏ .لیس لها آباء ويتم إعطاء التوزيعات الاحتمالية 
السابقة الخاصة بهم في الجداول من ۱۱-۱۳ وحتی ۱۳-۱۳ على التوالي. 

التوزیعات الاحتمالية السابقة الخاصة بالعقّد التي لیس لها أب (آباء) والتوزیعات 
الاحتمالية الشروطة الخاصة بالعقّد التي لها أب (آباء) تسمح بحساب التوزیع الاحتمالي 
ابلشترك (Joint probability distribution)‏ لجمیع اطتغیرات في شبكة بییز. 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۱۳ 


الجزء الثالث 


الجدول (۱۱-۱۳) 


P(x) 
x=l x1=0 
P(x; = 1) = 2 P(x; = 0( = 8 
)۱۲-۱۳( الجدول‎ 

P(x2) 
x2=1 رید‎ < 0 
P(x = 1( 2 2 P(x: = 0( = 8 
)۱۲-۱۳( الجدول‎ 
P(x) 
x =1 x =0 
P(x2 = 1) = 2 P(x: = 0) = 0.8 


على سبيل املثال» يتم حساب توزیع الاحتمال المشترك للمتغيرات ال ٠١‏ في Bas‏ بييز في 
الشكل ۲-۱۳ كما يلي: 

P(X, X2, X3, X4, X5, Xor X7, روت‎ Xo, Y) 

= P(y|X1, X2, X3, Xar X5, XG. X7, Xg, X9)P (X1, X2, X3 Xg X5, X6, X7, Xg, Xo) 

= P(y|x7, Xg, X9)P (x1, X2, Xa, X4, X5 X61 X7, Xg: X9) 

= P(y|X7, Xg, X9)P (Kgl X1, X2, رو‎ Lás X51 X6, X7: Xg JP (X1, X2, X3, را‎ X5, X6, X7, Xg) 

= P(y\X7, Xg, X9)P(xo|x5)}P (X1, X2: X3, X4 X5: 6, X7, Xg) 

= P(y|X7,Xg,X%q)P(Xo|Xs)P (7 (X1, X2, X3» X4, X5, X6, Xg P (X1, X2, X3, X4, X5 X6, Xg) 

= P(y\x7, xg, x9)P (x9) x5)}P(x7|X5, 2(۳ (C1, ¥2, X3, X4, X5, 6, Xg) = ۰ 


= P(y hey, (وند رود‎ P(xglX5)P (X71 Xs, ۲6( Cry l xg) P (x5 lta) P (x6|x3)P(x4lX2 Xa) (%1 X2. X3) 


rie‏ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوار زمیات لاستکشاف buil‏ العنقود والاقتران 


= PY. Xa, xg)P{xglxg)PCylxs, 6) P(XelX4)P xg 1x4) P (xglx33P{x4lx2, x3)P(x1)P( x2)P (x3) 


في طريقة الحساب المذكورة أعلاهء نقوم باستخدام المعادلات التالية: 
Vis s vi) = P(x ۰ 2۱21, 5 Zg) {\-\¥)‏ وه sony Xi |Z. anny‏ عام 


i 
P(X, Xj) = [ [re )۲-۱۳( 
=1 


حيث ]45 في امعادلة ۱-۱۳ لدينا eNi‏ × مستقلة بشكل مشروط عن تنت...» V7‏ إذا علمنا 
قيم «Zk‏ ,2 وفي امعادلة ۲-۱۲ لدينا نند...» :2 مستقلة عن بعضها البعض. 
ومن ثم» فان الاستقلال المشروط والاستقلال بين بعض المتغيرات يسمح لنا أن نعبر عن توزيع 
الاحتمال المشترك لجمیع المتغيرات باستخدام توزيعات الاحتمال المشروط الخاص بالعقّد 
التي لديها أب (آباء) وتوزيعات الاحتمال السابقة الخاصة بالعقّد التي ليس لديها أب (آباء). 
وبعبارة آخری, فان شبكة ببيز تعطي تمثيلاً مفككاً ومبسطاً لتوزيع الاحتمال المشترك. 
توزیع الاحتمال المشترك لجمیع اطتغیرات يعطي الوصف الکامل لجمیع التغیرات ویسمح 
لنا بالاجابة عن أية أسثلة عن كل التغیرات. على سبیل الثال, إذا كان لدینا توزیع الاحتمال 
ابلشترك بلتغیرین × وج x9 Pl, Z)‏ تأخذ واحدة من القیم «i‏ © وتأخذ 2 واحدة من 
القیم زطء...» by‏ يمكننا حساب الاحتمالات عن أي أسئلة عن هذین المتغيرين: 
j‏ 
P(x) = 2 P(x,z = by) )۲-۱۲(‏ 
k=1‏ 


استكشاف البيانات: نظریات وخوار زميات وأمثلة vio‏ 


i 
P(z) = 1 P(x = ay,Z) (۱۲-ع)‎ 
k=1 


P(x|z) = a )0-۱۳( 
P(z|x) = oe (1-1۳) 


في المعادلة ۳-۱۳ نقوم بتهميش 2 من P(x, Z)‏ للحصول على P(x)‏ في المعادلة ۱۳- نقوم 
بتهميش × من P(x,2)‏ للحصول على PZ)‏ 
Jbt‏ )3-3( 
إذا كان لدینا توزيع الاحتمال المشترك التالي (2:,2): 
P(x = 0,2 = 0) = 2‏ 
P(x =0,z = 1) = 0.4‏ 


P(x - 1,2 = 0( = 3 
P(x =1,z=1)=0.1 


والتي مجموعهم يساوي l‏ احسب كل من P(x|z)9 P(x|Z)9 PZ) P(x)‏ 


P(x = 0) = P(x = 0,z = 0) + P(x = 0,2 = 1( = 0.2 + 0,4 = 6 
P(x = 1) = P(x = 1,2 = 0) + P(x = 1,2 = 1) = 0.3 + 01 = 0.4 
P(z = 0) = P(x = 0,2 = 0) + P(x =1,z = 0) = 0.2 + 03 = 0.5 


۳۹۹ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


2-4 - سق يقل )0 = وإ = P(x‏ 
ی دہ P(x = 1 = 0) = “ASAE =O)‏ 
08 2 = )1 = ما0 = P(x‏ 
202 ے مد = )1 = ے1 = بوم 
0.33 = د ے © P(e = Ox = 0) = “ATOZ‏ 
067 - كه tx = 0) = “ERE =D‏ = يوم 
Ole = 1) = ARO - 22 - 075‏ = يم 
و ے - P(e = aa = 1) = ASD)‏ 


۲-۳ الاستدلال الاحتمالي :(Probabitistic Inference)‏ 
تمثل التوزيعات الاحتمالية ا مستنبطة من شبكة بييز معرقتنا السابقة عن مجال جميع 
المتغيرات. بعد الحصول على أدلة لقيم معينة لبعض المتغيرات (متغيرات الأدلة - 
(evidence variables‏ نريد أن نستخدم الاستدلال الاحتمالي لتحديد التوزيعات 
الاحتمالية اللاحقة (posterior probability distribution)‏ الخاصة بالمتغيرات 
ا مستهدفة (متغيرات الاستعلام - (query varrable‏ وهو ما يعنيء أننا نريد أن نرى كيف 


استکشاف البیانات: نظريات وخوارزمیات وأمثلة ۳۹۷ 


الجزه الثالث 


تتغير احتمالات القيم طتغیرات الاستعلام بعد معرفة قيم معينة بلتغيرات الأدلة. على سبيل 
LAL‏ في شبكة بييز في الشكل ۲-۱۳ نريد أن نعرف ما هو احتمال أن p=‏ وما هو احتمال 
7 إذا كان لدينا الدلیل المؤكد أن =وx×‏ في بعض التطبيقاتء متغيرات الدليل هي المتغيرات 
التي يمكن رصدها بسهولة. ومتغيرات الاستعلام هي امطتغيرات التي لا هکن رصدها. نعطي 
بعض الأمثلة على الاستدلال الاحتمالي. 


Paiute ES ال‎ T 


امثال (۳-۱۳): 


بالنظر إلى شبكة بییز في الشکل ۲-۱۳ والتوزیعات الاحتمالية في الجداول من ۲-۱۳ إلى “VW‏ 
۳ ذا علمنا X=] GI‏ ما هي احتمالات ] «x=‏ 3-1 , و[=ر×؟ 


وبعبارة آخری, ما هي )1 = 6 = I \x6 = 1) P(x‏ = یط و = Pez = Ie‏ 
(2؟ bey‏ أن الشرط العطی 1 = 6× لا يعني أن 1 = )1 = Pts‏ 


للحصول على )1 = P(x3 = I|x6‏ نحتاج الحصول على P(x3, X6)‏ 


P(x, xı) = معط‎ | x3)P(x3) 
x3=1 x3=0 


xg=0‏ )0= رد0 = معط = )0 = x; = IJ = P(g = Ox; = ( P(xs= 0, x;‏ ,0 = و0 


Pix; = 0) = (0.7)(0.8) = 0.56‏ 0.02 = )0.1)(0.2( = )1 دوم 
1 < وعد (0 ۶ ود[ دومع = (0 = ویر ,1 Põxs=‏ زر 2 la‏ = ۳66 = رز = رع ,| دوم 
P(x = 1) = (0.9)0.2) = 8 P(x3 = 0) = (0.3)(0.8) = 0.24‏ 


من خلال تهميش x3‏ خارج Pte, x3)‏ نحصل على P(x6)‏ 


۲) ع‎ 0( = P(x6 = 0, x3 = 0) + P(x, = 0, x3 = 1) = 0,56 + 0.02 = 0.58 
P(x, = 1) = P(x = و12‎ = 0) + P(X, =1,x%3= 1) = 0.24 + 0.18 = 0.42. 


P(x = 1x3 = 1)P(r3 = 1) (0.9) (0.2) 
P{x3 = 1]x, = 1) = SS د ده ا‎ 0.429 


تسس slates APT Wk fk A‏ ا ا ا ل beiin‏ 
۳۸ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات  si bul ae‏ والاقتران 


ETT‏ امنا ون 


للحصول على )1 = ×|[ = بچ نحتاج الحصول على X6)‏ ,,:/2. وتقترن X4‏ و 6× من 
خلال x3‏ وعلاوةٌ على AUS‏ فإن الاقتران بين 4× و X3‏ يستلزم X2‏ ومن ثم نريد تهميش 3× 
x29‏ خارج )1 = 2|×6× P(x4, x3,‏ حيث: 


P(x4,X3,%2|% = 1) = P(x4|x3,%2)P(%3|%6 = 1)P(x2) 


P(xg = 1|x3) P(x) 


BO <21( 2): 


= P(x4]x3, x2) 
۳-۱۳ معطاه في الجداول‎ Plx2)9 P(x3) P(xo|x3) P(xa|x3, x2) على الرغم من أن‎ 
بالإضافة إلى‎ Pte) ۱۲۱۳و ۱۳-۱۳ على التوالي, نحتاج أن نحسب‎ ۳ 


حساب PAg)‏ نحتاج Lal‏ إلى حساب Plt)‏ لنتمكن من مقارنة = 16 = 6 
)1 مع P(x4)‏ 
للحصول على P(x6)9 P(x4)‏ نقوم Yal‏ بحساب الاحتمالات المشتركة Ps, x3, X2)‏ 


P(X6, x3) خارج‎ X39 ۴)4, X3, X2) و 2× خارج‎ X3 ومن ثم نقوم بتهميش‎ Pls, x3)9 
على النحو التالي:‎ 


استکشاف البيانات: نظريات وخوارزميات وأمثلة m‏ 


الجزء الثالث 


20 پر 


P(x4 , x3 و‎ x2 ( = P(xales , x2 )P(x3 Piz) 


x2=0 


0 - ويد 


x = 0 x2 > 0) = Plea = Olxs‏ .0 حيمر 


x; < 1 


Pfxa = 0, xs = ۱, x2 = 0) = Pécs = Olxs 


(0 رید ,0= (0 دير =f‏ 

P(x2 = 0) = (0.7)(0.8)(0.8) =‏ )0 = و۳ = )0.1)(0.2)(0.8( = )0 = رمزلا = رام 
0448 0016 

زد[ = x2 = Û) = Pe‏ ,0 = ود ,1 = وام x2 = O) = Phx = lx‏ ,1 = وبر ,7 = بیع 
=f, =f) =0 x2=0)‏ 

Piu = دیم‌طز]‎ = 0) = 0.9()0.2()0.8( = P(x = OP(x2 = 0) = (0.3)(0.8)(0.8) = 
0.144 0.192 

[ < بير 
x3=1 x3=0‏ 

Plea = 0, x3 = f, x2 = 1) = Pfu = Olx3 P(xs = 0, x3 = 0, x2 = 1) = و0 = يبظ‎ 
=f, x2 = 4) < 0 رید‎ = 1) 

P(x = P(x: = 1) = (0.1)(0.2)(0.2) - ۳۵ = 0(6۵ = 1) = (0.1)(0.8)0.2) = 
0.004 0.016 

l, x= 0, x2 = f) = Plea = Dx‏ = بیط ika‏ ع بعاط = رز = جح f,‏ = ور ,2۱ بط 
( < ود 0 < xz=4)‏ ,= 

OP (x2 = 1) = (0.9)(0.8)(0.2) =‏ = وی = 609۱002002 = )1 = P(x‏ = ریم 
0.144 0.036 


وبتهمیش 23 و 2× خارج X3, X2)‏ ول Jam‏ على P(x4)‏ 


P(x, = 0) = P(x, = 0,%3 = 0, x2 = 0) + 4 = 0, x3 = 1, x2 = 0) 


+ P(x, = 0, x3 = 0,2, = 1) + P(x, = 0,x3 = Lx. = 1) 


= 0.448 + 0.016 + 0,016 + 0.004 = 0.484 


P(x, = 1) = P(x, = 1, x; = 0, x2 = 0) + P(x = 1,29 = 1, X2 = 0) 


+ P(x, = 1, x3 = 0, x2 = 1) + P(x4 = 1,X3 = 1, و27‎ = 1) 


= 0.192 + 0.144 + 0.144 + 0.036 = 0.516. 


۳۳۰ 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


P(x4, x3, X2|X6 = 1) والآن نستخدم (2):6 لحساب‎ 


P(x4,X3,X%2|%_ = 1) = P(x4|x3,x2)P(xs|xg = 1) P(X2) 


P(xg = 1|x3)P(x3) 


P(% = 1) P(x2): 


0- ويد 


)0 ديد ,0 ع ود | 0 = P(x,‏ 


P(x, = ودلا‎ = 0)P(xs = 0) 


P(x =1)‏ 
0 ح وير )0= P(x,‏ 
روم 0 ,جم 


= 032 


P(x; = 1 | ولا‎ =0, x, = 0( 


P(xs = 1x = 0)P(xs =0) 
P(xs =1) 


P(x» =0) ويد‎ - 1 
5 (0.30.8) 
=(0.3 a 12 (0.8) 


=0.137 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 


= P(x4|x3,X2) 


x2=0 


x3 - 1 


P(x, = 0] x3 =1, مد‎ > 0) 


1x5 = 1)P{x3 = 1)‏ = ود 


P(x, =1) 
P{x: =0) 
RD) 
(0.1) 04 (0.8) 


= 0.0384 


P(x, < 1 | x, =1, x, =0) 


P(xs = Irs =1)P(xs = 1) 


P(x, =1)‏ 
P(x» =0)‏ 
)0-2 وہ _ 
روم روم - 


- 9 


خوارزميات لاستكشاف أنماط العنقود والاقتران 


الجزء الثالث 


OSS eI‏ كذ در 


x3=0 
P(x, = O| xg = 0, x, = 1) 
Pixa = 1|x5 = 0)P(xs = 0) 


x3=1 
(x - 0| x)= 1, ود‎ =1) 


P(xs = 1]x3 = DP(xs = 1) 


P(x, =1) P(x, =1) 
P(x, =1) P(x, = 1) ع وبر‎ 0 
-_ (91, 020-2) = (0,1) 030.8) 
=.) وک )0.1 روم‎ 2) 
= 0.009 =0.011 


P(x, = 1 | ود‎ =0, 2, = 1) 
P(x = 1x = 0)P(xy = 0) 


(%4=1}23= 1,2, =1) 
P(x, = ولا‎ = 1) P(x; =1) 


P(xs = 1) P(xs =1) 
P(x2 =1) P(x» =1) عيبر‎ 1 
0.9)(0.2 . 
= (0.9, روم 9309 روم روم‎ 
= 0.077 = 0.103 


P(x4, x3, 2:26 = 1) خارج‎ x2 من خلال تهميش 3× و‎ ۶)4 = Ixe = 1) على‎ Jani 


P(x, = 1|%_ = 1) 
= P(x, = 1,x3 = 0,× = O[x, = 1) 
+ P(xq = 1, x3 = 1, x2 = 0126 = 1) 
+ 067 = 1,x3 = 0, x2 = م1‎ = 1) 
+ P(x, = ر1‎ 25 = 1, x2 = 126 = 1) 


= 0.137 + 0.309 + 0.103 + 0.077 = 0.626. 


۳۳۲ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوار زميات لدتكداف bial‏ العنقود : والاقتران 


BE = 1) = 0.516 ss‏ التي قمنا بحسابها سابقاً p‏ الدلیل 1 = 6× يغير الاحتمال 
x4 =‏ إلى 0.626 

۳ على )1 = Ixe‏ = ۶)2 من خلال تهميش 4× و X3‏ خارج = 2|×6× ,3× ٣)4,‏ 

ل1: 


P(x» = 126 = 1) 
= P( x4 = 0, x3 = 0, 22 = 1126 = 1) 
+ P(x, = 1,x3 = 0,x2 = 1|x, = 1) 
+ P(x, = 0,x3 = 1, x2 = 1|x¢ = 1) 
+ P(x, = 1,x3 = 1,x2 = مند|1‎ = 1) 
= 0.011 + 0.103 + 0.009 + 0.077 = 0.2. 


الدلیل على أن / = x6‏ لا يغير الاحتمال أن 7 = 72 من الاحتمال السابق ۸0.2 SY‏ 6× 
يتأثر ب ود فقط. الدليل على أن 7 > x6‏ يجلب الحاجة إلى تحديث الاحتمال اللاحق ل ويد 
والذي بدوره يجلب الحاجة إلى تحديث الاحتمال اللاحق ل ۲ X3 OY‏ يؤثر على X4‏ 
وبشكل ple‏ قمنا بإجراء الاستدلال الاحتمالي عن متغير استعلام (quesry variable)‏ عن 
طر يق الحصول Vol‏ على التوزيع الاحتمالي المشترك الذي يحتوي على متغير الاستعلام» ومن 
ثم تهميش المتغيرات غير المستعلم (non query variables) lys‏ خار 5 التوزيع 
الاحتمالي المشترك للحصول على احتمال متغير الاستعلام. بغض النظر عما إذا تم الحصول 
على دليل جديد عن قيمة معينة طتغیر. فان التوزيع الاحتمالي لمشروط لا يتغير لكل عقدة 
لها أب (آباء)» احتمال حدوث الابن (child)‏ علماً بحدوث الأب (parent)‏ أو الآباء 
P(child | parent(s))‏ وامعطاة في شبكة بیین ومع ذلك» فان جميع الاحتمالات الأخرى, 
ها في ذلك الاحتمالات المشروطة p(parent child)‏ واحتمالات المتغيرات الأخرى غير 
المتغير الدلیل» قد تتغيرء اعتماداً على ما إذا كانت تلك الاحتمالات قد تأثرت بالمتغير الدليل 
ام 5 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۳ 


الجزه الثالث 


کل الاحتمالات التي ۳1 بمتغير الدليل إن 37 تحدیث. وينبغي ۳ تُستخدّم الاحتمالات 
Bink‏ ة للاستدلال الاحتمالي عندما يتم الحصول على Vol‏ جديدة. على سبیل المثال» إذا 
واصلنا من JEL‏ ۲-۱۳ وحصلنا على دليل جديد 7 = 4 بعد تحديث الاحتمالات للدليل 
xe = 7‏ في الثال ۸۲-۱۳ فان جميع الاحتمالات التي تم تحديثها من المثال ۲-۱۳ ينبغي أن 
تستخدم لإجراء الاستدلال الاحتمالي للدليل الجديد 1 = وى على سبيل JEL‏ الاستدلال 
الاحتمالي لتحديد )1 = I fxg‏ = و2 P(x2 = I\xa = Dg‏ 


:)۳-۱۳( JOLI 
بالاستمرارية مع جميع الاحتمالات اللاحقة المحذثة للدليل 7 = 6× من المثال ۲-۱۳ نحصل‎ 
و7 = و×؟ وبعبارة آخری»‎ x2 > 7 ما الاحتمالات اللاحقة ل‎ x4 = 7 الآن على دليل جديد:‎ 
Plz = [|×4 = عند البدء بجميع الاحتمالات التي تم تحديثها من المثال ۲-۱۳ ما هي‎ 

$ P(x2 = I|xe= 1) 31) 


يتم استعراض الاستدلال الاحتمالي لاحقاً: 


P(x, = 1|xs,x2)P(x|xg = 1)P(x2lx%—_ = 1( (0.9}(0.2} 
P(x3,X21%4 = 1) = اتن‎ ee ee | = ا‎ = 0.429 


P(x, = 1|x3 = 0,x2 = O)P(x5 = 01 = 1121 = O|x5 = 1) 
P = 0, =0 دب للع‎ 
a لوا‎ P(x, = 1|xg = 1) 
_ 00. 3()1 - 0.429)(1 - 0.2) 


(0.626) = 0.219 


P(x, = 1]x = 0,x = 1)P {x3 = Ofxg = 1)P (x2 = 1|x6 = 1) 
=0,x%. = = 1) = 25MM 

X2 1|X4 2 P(x, on 16 = 1‏ 0 ودام 

_ )09(0 = 0.429)(0.2) 


(0.626) = 0.164 


P(x, = و12‎ = 1,x2 = 0)P(x5 = 1x6 = 1P (2 = O1x¢ = 1) 
ينم‎ = 1,x2 = Olx = 1) = SS Se 
_ (0.9)(0.429}(1 — 0.2) 


2 (0.626) a 


i تئر‎ Raa 
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خوارز j‏ زمیات ت لاستكشاف bul‏ العنقود والاقتران 


8 = و1‎ = 1,x2 = sce = 1g = = 1}P(x2 = = Ilx = = 1) 


P(x; = 1,x2z = 1| < 1( = Px, = 12 = 1) 


_ (0.9)(0.429)(0.2) 


(0.626) = 3 


نحصل على (1 = ب[ = و من خلال تهميش X2‏ خارج (1 = P3, X2|x4‏ 


P(x; = 1|x, = 1) = P(x, = 1, x2 = 0| وعم + )1 = بعد‎ = i, xz = 1|x4 = 1) 


= 0.494 + 0.123 = 0.617 


ما أن x3‏ تؤثر على كل من 6× و ۵۲4 نرقع احتمال أن 7 = وید من 0.2 إلى 0.429 losis‏ 
يكون لدينا الدليل 7 = كنت ثم نرقع احتمال أن 1 = x3‏ مرةٌ أخرى من 0.429 إلى 0.617 
عندما يكون لدينا الدليل 1 = ۲4 


:2 (x3, x2|x4 = 1) خارج‎ X3 من خلال تهميش‎ ٥)2 = Ilx: = 1) على‎ Jas وبذلك‎ 
P(x» = 1|x4 = 1) = P(x; = 0, x2 = 1|x4 = 1) + و5‎ = 1, x = 1| = 1) 


= 0.164 + 0.123 = 0.287. 


ا أن x2‏ تؤثر على م ولكن لا تؤثر على ۲6 يبقى احتمال / = د× هو نفسه عند 0.2 
عندما يكون لدينا الدليل على / = a6‏ ثم نرفع احتمال أن 7 = x2‏ من 0.2 إلى 0.287 
عندما يكون لدينا الدليل على / = مد وهي ليست زيادة كبيرة لأن  /‏ و× قد تنتج أيضا 
الدلیل على 7 = ود 

تحتاج الخوارزميات التي تُستخدم لعمل الاستدلال الاحتمالي للبحث عن مسار من 
المتغير الدليل إلى متغير الاستعلام. وتحديث واستنتاج الاحتمالات على طول اللسارء كما فعلنا 
ذلك يدوياً في الأمثلة ۲-۱۳ و۳-۱۳. ويتطلب البحث والاستدلال الاحتمالي القيام بكم كبير 
من الحسابات» كما رأينا في الأمثلة ۲-۱۳ و۳-۱۳. ومن ثم لا بد من تطوير خوارزمية 
حاسوبية فعالة لإجراء الاستدلال الاحتمالي في شبكة jay‏ على سبيل JEM‏ تلك الموجودة في 
HUGIN (www.hugin.com)‏ وهي حزمة برمجية لشبكة بييز. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة Yro‏ 


إن Hobs‏ البنية الخاصة بشبكة بييز والاحتمالات اللشروطة والاحتمالات السابقة في 
شبكة بييز من بيانات استكشافية هو موضوع قيد البحث بشكل واسع. وبشكل عام نود 
أن نقوم بتركيب بنية شبكة بييز على أساس مجال المعرفة قيد البحث. ولکن» عندما لا 
يكون لدينا معرفة كافية عن المجال المبحوث والستهدف. ولكن لدينا فقط بيانات عن 
بعض التغیرات المرصودة في led!‏ فنحن بحاجة للكشف عن الاققرانات بين ابلتغیرات 
باستخدام تقنيات استكشاف البیانات» مثل: قواعد الاقتران (association rules)‏ 
الموجودة في الفصل AY‏ والأساليب الإحصائيةء idis‏ إجراء اختبارات على استقلالية 
المتغيرات. 

lewis‏ تكون جمیح المتغيرات في شبكة بييز قابلة للرصد للحصول على سجلات بيانات 
للمتغيرات. فإنه مكن تقدير جداول الاحتمالية المشروطة للعقّد التي لها أب (آباء) 
والاحتمالات السابقة للعقد دون أب (elf)‏ باستخدام الصيغ التالية كما هو الحال في 


العادلات 1-۳ و۷-۳: 
و۷( 
(۷-۱۲۳) تخت = 
P(x =a) N‏ 
P(x = a|z = b) = Sezanas, (A-۳)‏ 
z=b‏ 
حيث إن: 


۷ هو عدد سجلات البيانات في مجموعة البيانات. 
۾ - Ny‏ هو عدد سجلات البيانات مع © = ند 
و ۷ هو عدد نقاط البيانات مع 8 = 2 
۷-۵-۵ هو عدد سجلات البيانات مع 2 = × وم - 2 


وقد قام راسیل وآخرون )1995 (Russell et al.,‏ بتطویر طريقة الصعود امطتدرج 
(gradient ascent method)‏ والتي تشبه طريقة الهبوط (gradient gjah‏ 


e A SN 
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خوار زميات | لاستكشاف eam bul‏ والاقترا ان 


decent RD‏ للشبكة العصبية الصناعية, å‏ لتعلم (entry) Jat‏ في جدول الاحتمال 
المشروط في شبكة بييزء عندما لا يمكن تعلم المدخّل من البيانات الاستكشافية أو 
التدريبية. فليكن (رة|)2 = wy‏ عبارة عن مدخل في جدول الاحتمال المشروط للعقدة 
x‏ التي تأخذ القيمة رقم i‏ والتي لها أب (أباء) 2 والتي تأخذ القيمة رقم GF‏ شبكة بییز. 
ولتكن h‏ تشير إلى فرضية عن قيمة Wy‏ إذ! كان لدينا مجموعة بيانات استكشافية. نريد أن 
توجد فرضية الإمكان الأكبر h (maximum likelihood hypothesis)‏ التي تعظم قيمة 
P(D\|h)‏ 


h = arg max, P(D|h) = arg max, In P(D[h). 


يتم تنفيذ الصعود المتدرج SUI‏ لتحديث Wy‏ 


ain P(D|h) 


۹-۳ 
Owij : 


wiy(t + 1) +a‏ = )1 + )رها 


حيث © هو معدل التعلم. بترميز P(D|h)‏ إلى Pr(D)‏ واستخدام = Olnf(x)lOx‏ 
[LABNE]‏ يكون لدينا: 


din P(D[h) _ êlnP,(D) _ Ain Taco Pa(d) 


H ۳ 1 OP, _ 1 Erp Pa(dlxir, 2, Pa (xe, 2) 
dep Pa(d) dwy aen رال (۵)مط‎ 


5 > 1 Ody Ph (dlx, 2/1) Pn (xi1z)") Pa (z; ) 
deo P,(d) ليك‎ 


-F 1 Ody yj P,(d|xy, Zj ) Wry’ P„(zj') 
aep Pa (d) ðwij 


استکشاف البیانات: Ob bs‏ وخوارزمیات وأمثلة ۳۳۷ 


الجزه الثالث 


1 7 O, 
33 P,(d@) Pudi 24) قاط‎ = oe Prd) Py, (x1, 2) 


= 2 (4ارة ,یر‎ ld) كارك كا‎ pr ( z) = > Pr(xinZjld) ld) -y Pa (xo z;ld) 


Pa(z) 


aed Ph(xi z) aen Pa(xilz) Wij 


(۱۰-۱۳) 
يإدخال املعادلة ۱۰-۱۳ في AW‏ نحصل علی: 


zld)‏ ,)و 
wyt)‏ 


din P(D|h) 


w(t +) = w(t + 1) + که‎ MEDHA , ۱۱۰۱۳ 


Pari, zijd) cuo‏ كن الحصول Yale‏ باستخدام الاستدلال الاحتمالي اموضح في الجزء 
۲-۳. بعد استخدام العادلة ۱۱-۱۳ لتحدیث ay‏ نحتاج إلى أن نتأکد من أن: 


> wate +1)=1 )۱۳-۱۲( 
1 


عن طریق shel‏ التطبیع: 


Frwy + 1( eM 
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خوارز زمیات لا مس افاط العنقود والاقتران 


:(Software and ا‎ 77 eau 6۳ 


(HUGIN) وهیوقن‎ (www. bayesserver.com) (Bayes server) jı pale 
هما حزمتان برمجيتان تدعمان شبكة ببيز. ممكن العثور على بعض‎ (www. hugin.com) 
وبعض‎ (bioinformatics) التطبيقات الخاصة بشبكة بييز في مجال المعلومات الحيوية‎ 
وجیانخ‎ (Diez et al., 1997) دييز وآخرون‎ (Davis, 2003) المجالات الأخرى في ديفيز‎ 

(Pourret at al., 2008) وبوريت وآخرون‎ (Jiang and Cooper, 2010) کوبر‎ 


(Exercises) التمارين‎ 


٠١‏ بالنظر في شبكة بييز في الشكل ۲-۱۳ والتوزيعات الاحتمالية في الجداول من 
۲-۳ إلى ۱۳-۱۳. وإذا كان لدينا 7 = می ما هو احتمال أن 1 = 8x7‏ 
وبعيارة أخرى. ما هو )1 = P(x, = I|xs‏ 
۱-۳ بالنظر في شبكة بييز في الشكل ۰۲-۱۳ والتوزیعات الاحتمالية ‏ الجداول من ۲-۱۳ 
إلى ۱۳-۱۳. وإذا كان لدينا 7 = مت ما هو احتمال أن 7 = 8X7‏ وبعبارة أخرىء ما 
هو )1 = ید[ = P(x;‏ 


۲-۳ بالاستمرارية مع جميع الاحتمالات اللاحقة Bahl‏ للدئيل 1 = x6‏ من JEL‏ ۲-۱۳ 
والمثال ۰۱-۱۳ نحصل الآن على دليل جديد 7 = 4 ما الاحتمال اللاحق 1 = 8x7‏ 
وبعبارة آخری, ما هو )1= 4× |1= [:۳6؟ 


۳-۳ كرر التمرین ۱-۱۳ لتحدید )1 = 6× |1 = 1ص 
۳ کرر التمرین ۲-۱۳ لتحدید(1 = P(e] = [| x4‏ 
0-17 كرر التمرین ۱-۱۳ لتحدید )1 = 6× |1 = Ply‏ 


1-۳ کرر التمرین ۲-۱۳ لتحدید (1 = P = 1| x4‏ 
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ne ٤‏ 5 الرئيسية 


Principal Component Analysis 


تحليل المكونات الرئيسية (PCA)‏ هي تقنية إحصائية لتمثيل البيانات العالية الأبعاد 
في clad‏ منخفض الأبعاد. doles‏ ما يتم استخدام تحليل المكونات الرئيسية (PCA)‏ لاختزال 
أبعاد البیانات» بحيث يمكن تصوير أو تحليل البيانات في فضاء منخفض الأبعاد. على سبيل 
المثالء قد نستخدم تحليل الکونات الرئيسية (PCA)‏ لتمثيل سجلات بيانات لها ۱۰۰ متغير 
من متغيرات الخاصية بسجلات بيانات لها متغيران أو ثلاثة من المتغيرات. في هذا الفصل, 
يتم Vol‏ مراجعة إحصاءات اللتغيرات المتعددة (multivariate statistics)‏ وجبر 
ا مصفوفات (algebra matrix)‏ لوضع ومعرفة الأساس الرياضي لتحليل المكونات الرئيسية 
(PCA)‏ وبعد tS‏ سيتم وصف وتوضيح تحليل المكونات الرئيسية (PCA)‏ وترد قائمة 
بحزم البرمجيات التي تدعم تحليل المكونات الرئيسية (PCA)‏ ويتم إعطاء بعض التطبيقات 
الخاصة بتحليل المكونات الرئيسية (PCA)‏ مع مراجعها. 


1-١‏ مراجعة لإحصاءات المتغيرات المتعددة 
(Review of Multivariate Statistics):‏ 
إذا كان :× عبارة عن متغير عشواني متصل أو کمي بقيم مستمرة وبدالة كثافة احتمال 
fii‏ فان Ys‏ من الطتوسط (mean)‏ :4 والتباين (variance)‏ ثرو للمتغير العشوائي» 
يتم تعريفهما على النحو التالي: 
eo‏ 
u; = E(x) = | Xifi (xi) dx; )۱-۱۶(‏ 


— 00 


oo 


o? = f (x; - u)? fiC) dx; ma 


-0 
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EE 


إذا كان :× عبارة عن متغير عشوائي غير متصل ل أو نوعي TERE random Bee‏ 
وبقيم غير متصلة ودالة احتمال P (xi)‏ 


u; = E(x;) = xP (x) wii 
all values 
Of Xi 
a 2 
0: = (x; — u) P(x). 
all values e 
of xi 


إذ! كان كل من Xi‏ وز× عبارة عن متغيرين عشوائيين متصلين أو كميين وبدالة كثافة احتمال 
مشتركة fifi, Xj)‏ فإنه يتم تعريف التغاير أو التباين امشترك (Covariance)‏ للمتغيرين 
العشوائيين » ند وت على النحو التالي: 


oy = E(x; - ma - )ر‎ 
= Í Í (xı - u(x; (0-\€) 


=o‏ ولاه 


= uy) fij (xi, x) dx; dx; 


إذا كانء :× وز× عبارة عن متغيرين عشوائيين غير متصلين أو نوعيين وبدالة كثافة احتمال 


P(x, Xj) مشتركة‎ 
oi; = E(x; — ui) (xj - uy) 
z 2 > (x; — u(x 
all values all values (1-16) 
of x; of x; 
ae U; JP (Xiu x;). 
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خوارزميات استكشاف أنماط اختزال البيانات 


See TELS ee Br CRITE OY‏ ا م0 


ومعامل الارتباط (correlation coefficient)‏ هو: 


Pi; = Vale )۷-۱۶( 


بالنسبة (vector) dock‏ المتغيرات العشوائیة (X1, X2, ..., Xp)‏ = ند فان المتجه المتوسط 
(mean vector)‏ هو: 


E(x) ا‎ 
E(x) = كك‎ = i = بط‎ (۸-16) 


با مت 


ومصفوفة التباین- التغایر (Variance -Covariance)‏ هي: 


21 لا‎ 
, X2 - يلم‎ 8 
2 = E(x وب‎ w(x — 4) = E ; [xı _ H Xz = يل‎ oes Xp Hy) 


Hy‏ - ولا 


(n-a) (avna) ~ Ca-n) (رده-‎ 
=F (x) - 4) = 3 (x, =m) (¬ زم = +( زيم‎ 


(x, - 56 (يس-‎ ( p- iG - زم‎ i (xp - n) ١ 
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g&l F الجز‎ 


9 A E(x جع)(يم-‎ = ka) <. a 7 (x, - ~84 9 

E(x, - #,)(x1 - #,) E(x, - 4) B(x, = زيم‎ (x, = 3 

: : 5 1 

E (x, 3 n) (x; = 9 E(x,- 9 6 = H) 5 E (x, - 9 

0, O2 سم‎ Sp 

“2p 1 )٩-۱6(‏ ۰۳2۰ 129 زیت 
op‏ رت op1‏ 

:١-١ المثال‎ 


احسب doch!‏ المتوسطء ومصفوفة التباين - التغاير SY‏ من المتغيرات في الجدول 
۰۱-۶ مجموعة البيانات في الجدول ١ -VE‏ هي جزء من مجموعة البيانات الخاصة بنظام 
التصنيع في الجدول -١‏ ۶ وتحتوي على متغيري خاصيةء X7‏ و X3‏ لتسع حالات من الأعطال 
الآلية الأحادية. ويبين الجدول ۱۶- ۲ الاحتمالات المشتركة والهامشية لهذين المتغيرين. 


المتوسط والتباين ل 7× هما: 
5 5 4 
uz = E(x7) = > X7P(%) = 05۲1‏ 
all values‏ 
of xy‏ 
5 ?5 4 52 
o = > (x7 - w)?P(x7) = (0-2) »2+ )1-2( x5‏ 
ali values‏ 
Of x7‏ 
.0.2469 = 
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الجدول )3-5£( 
مجموعة البیانات الخاصة بالکشف عن الأعطال بنظام التصنیع مع متغيرين للجودة 


Instance - رقم الحالة‎ 
Faulty - (الآلة المعطلة‎ 
(Machine 
i (M1) 
2(M2) 
3(M3) 
4(M4) 
5(M5) 
6(M6) 

HM?) 
8(M8) 
9(M9) 


š 
x 
N 


O لت سم‎ O O = ت‎ = & 
O o مت‎ me = O- OH 


الجدول (۲-۱) 
الاحتمالات ابلشتركة والهامشية لمتغيري الجودة 


222 Xs Azz, z9 
1 0 x7 
1 3 4 3 1 
-+-=- ~ - 0 
9 9 9 9 9 
4 1 5 4 
-+- =- f - 1 
9 9 9 9 9 
3 1 4 1 4 5 
1 + سم -=-+- و‎ 
9 9 9 9 9 9 
المتوسط والتباين ل 8< هما:‎ 
5 4 
Ug = E(xg) = 3 ود‎ (xg) = -ج1+ج0‎ 3 
ali values 
of xg 
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4 J amorea- 


all values 


التغاير (التباين المشترك) لكل من ل 7 و X8‏ هو: 
مدومن - YD. Cer ere‏ حوره 


all values all values 


of x; Of Xe 
= (0-3)(0-5) (و-0-3()0) + و‎ ×+ (1-3)(0-§) ×5 
+ (1 -2( (1 -5) x5 = —0.1358. 


المتجه اللتوسط X = (X7, X8)‏ هو: 
n- [ie‏ 


077 [= 0.2469 —0.1358 
Og7 Ogag 


wm‏ | ف حر | نأ 


—0.1358 0.2469 


۲-۱ 


۲-۶ مراجعة no‏ الصفوفات (Review of Matrix Algebra)‏ 
إذا کان لدينا متجه بعدد م من المتغيرات: 


x' = [xı x2 م‎ Xp, (1۰-1) 
Xp 


۳۳۸ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات استكشاف bial‏ اختزال البيانات 


Xl, X2, se; Mp ۳5‏ غير مستقلة sy Tube‏ إذا وجد مجموعة من الثوابت» Cj, C2, 1, Cp‏ 
كلها لا تساوي الصفر. والتي تجعل المعادلة التالية صحيحة: 


C1X1 + C2X%3 ۲۰۰۰+ CpXp = ۰ )۱۱-۱۶(‏ 
باطثل فان Xp‏ ,... ,2× ,2 تعد مستقلة خطباً إذا وجد مجموعة واحدة فقط من 

الثوابت,0 = ,ع = ... = رم = ,6 . والتي تجعل املعادلة التالية صحیحة: 

CX + 629 ۲۰۰۰+ CpXp = 0. )۱۲-۱6( 


يتم حساب طول المتجه. ن على النحو التالي: 
)1۳-16( بل قير + + Ly = fap + x3‏ 


يوضح الشكل ۱-۱۶ متجهاً ثنائي الأبعادء ax! = (x), X2)‏ ويظهر حساب طول اطتجه. 
ويبين الشكل ۲-۱۶ الزاوية 0 بين متجهین» X' = (x1, X2)‏ و Y’ = (Yi, Y2)‏ والتي يتم 


حسابها على النحو التالي: 
cos(6,) = = (\€-1€)‏ 
Ly‏ 
sin(8,) = = (v0-1£)‏ 
cos(@,) = = (11-16)‏ 
(ع۱۷-۱) = = sin(6,)‏ 
Ly‏ 


استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


الجزه الرابع 


الشکل )1¢-¥( 
حساپ الزاوية بين متجهین 


ré-‏ استکشاف البیانات؛ نظریات وخوارزمیات وأمثلة 


خوار زميات ستكداف ف أنماط اختزال البيانات 


cos(0) = ws — 6,) 


= cos(62) cos(0,) 
+ sin(82) sin(®,) 
1 (3) 3 y2 (2) A + و‎ _ x'y 
Ly} اسلا لا‎ \Lx Ely Lely (1-16) 


وبناء على عملية حساب الزاوية بين المتجهين, '× وال يكون المتجهان متعامدین, وهو ما 
يعني ol‏ 90° = 6 أو 270° أو 0 = cos(@)‏ فقط إذا كان 0 = x'y‏ 

وتكون المصفوفة المربعة. A p × p‏ متناظرة (symmetric)‏ إذا كانت "4 = A‏ وهو 
ما يعني أن ay = Gj,‏ لكل p‏ ,... ,1 > ل وص ,... ,1 f=‏ والمصفوفة المحايدة 
(Identity matrix)‏ تكون بالشكل التالي: 


1 0 + 0 
۲2۱۳ ۰ | 
0 0 1 

ویکون لدینا 

AI = IA = A (53-16) 


ويرمز بلعکوس اللصفوفة (inverse of the matrix) A‏ بالرمز على AW!‏ ويكون لدينا: 


AA ` = A714 = ۰, )۲۰-۱۶( 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۱ 


الجزه الرابع 


ويوجد معکوس المصفوقة ueg‏ كانت ۳3 ا مصفوفة A‏ والتي عددها يل ( ,... ,62 ai,‏ 
(ap‏ مستقلة Lbs‏ 


لیکن |4| يشير إلى محدد (determinant)‏ المصفوفة 4 المربعة Xp‏ 7 يتم حساب 
|4اعلی النحو التالي: 


۱۸۱ 2 وه‎ ifp =1 )۲۱-۱۶( 
p 7 

lAl = > إريفاريه 2 = /*1(1-) إريفاريه‎ CODE ifp>1, )۲۲۰۱۶( 
j=1 =1 

هي المصفوفة )1 - (p - 1) × (p‏ التي تم الحصول عليها عن طريق إزالة 


الصف الأول والعمود "رمن A‏ ۱ 
هي الصفوفة )1 - م) × (1 - م التي تم الحصول علیها عن طریق إزالة 


Au 


À Ay 
A والعمود “رمن‎ i الصف‎ 7 
:۲ × ۲ ولصفوفة مربعة‎ 
= h E 
a21 Q22! 
هو:‎ A فإن محدد المصفوفة‎ 
2 
۱۸1 < بب‎ anal = )4ار رج‎ 


j= 
= a41 (۱۶۶ + alA,2l(-1 ee = 21022 — 242421. ۳۳۰۱ t) 


وبالنسبة للمصفوفة الحایدة ‏ 


(۰۱۵ع۲) .1= || 


rey‏ استکشاف البیانات: GL bs‏ وخوارزمیات وأمثلة 


خوار زمیات مسجت قاط اختزا ال ات 


ويوضح JE‏ عملية حساب محدد المصفوفة Ew A‏ مصفوفة التباین - التغایر ل 37 
و X8‏ من الجدول N-NE‏ 


ee l 0.2469 —0.1358 


` 1-0.1358 0.2469 
= 0.2469 x 0.2469 - (—0.1358)(—0.1358) 


= 0.0425. 


لتكن A‏ مصفوفة مربعة p × p‏ و[ giall‏ المحايدة p‏ × ص فإن القيم ,. 
بتسمی القيم الذاتية (وتُسمى أحياناً بقيم أيجن أو الجذور الكامنة) (eigenvalues)‏ 
للمصفوفة A‏ إذا كانت تُحقق المعادلة التالية: 


|A—Al| = 0. )۲۵-۱۶( 


المثال ۳-۱۶: 
احسب القیم الذاتية للمصفوفة A‏ التالية» والتي يتم الحصول علیها من JEM‏ ۱-۱۶: 


4= ] 02469 8 
-0.1358 0.2469 


al al‏ رت 


E ا‎ "| - 
(0.2469 — A)(0.2469 — A) — 0.0184 = 0 


12 - 0.49384 + 0.0426 = 0 
A, = 0.3824 A, =0.1115. 


۱۸ -al = | 


E a aS ی بت ار سا 7 جورب ب سس ل بيب هت‎ p TAT RS TCA a تب ان‎ EA T REE E BT 
rer استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ 


لتكن are‏ ص Ag‏ هي القيمة الذاتية ل 4 التجه ۳ المتجه الذاي 
A (eigenvector)‏ واطرتبط بالقيمة الذاتية A‏ إذا كان × هو متجه غير صفري ويحقق 
أمعادلة التالية: 


Ax = Àx. (r1-1£) 


يتم حساب المتجه الذاي المطبع (normalized eigenvector)‏ بوحدة طول :.€ على 
التحو التالي: 


x 


(۳۷-۱۵) = م 


XxX 
۳-۲۴٤ المثال‎ 

احسب المتجهات الذاتية المرتبطة بالقيم الذاتية في JEM‏ 16-,. يتم حساب 
ا متجهات الذاتية اللمرتبطة بالقيم الذاتية 0.3824 = رف و0115 = جه 
للمصفوفة المربعة التالية 4 في JELI‏ ۲-۱۶: 


4 = [02469 58 
-0.1358 0.2469 


Ax = Ax 


]+ 0.382 = ا 0.2469 


—0.1358 0.2469 
l 0.2469x, - 0.1358 = 0.3824x, 


—0,1358x, + 0.2469x, = 0.3824x, 


ee + 0.1358x, =0 
0.1358x, + 0.1355x, = 0. 


vet‏ 3 استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارز زه زمیات d‏ استكشاف ن اهاط اختزا الا البياتات 


وا udu‏ امعادلتين متطاہقتانء فإنه Whe‏ العديد من الحلول. بوضع [ = رع و- = رين 
يكون لدينا: 


Ax = Àx 


سس MESA]‏ را 


f 0.2469x, = 0.1358x, = 0.1115x, 
—0.1358x, + 0.2469x, = 0.1115x, 


۳ + 0.13586 = 
0.13592, + 0.1354x, = 0. 


العادلتان المذكورتان أعلاه متطابقتان» ومن ثم یکون لهما العدید من الحلول. بوضع ند 
1 = 19 = دين یصبح لدیتا: 


- f 
۷2 


في هذا JEL‏ يتم اختيار المتجهين الذاتيين اطرتبطین بالقيمتين الذاتیتین بحيث یکون 
المتجهان الذاتيان متعامدين. 

لتكن A‏ مصفوفة متطابقة p Xp‏ و (:© Ahi‏ بحيث d = 1, ..., p‏ وتمثل 2 p ous‏ من 
أزواج القيم الذاتية والمتجهات الذاتية AS‏ بحيث pei O‏ .... ,7 = 1 » يتم اختياره 


استكشاف البیانات: نظريات وخوارزميات وأمثلة reo‏ 


eb ssa 


ليكون eS‏ متبادل. EER‏ التحلل الطيفي ۱ ae‏ 
للمصفوفة A‏ بالمعادلة التالية: 


A= > 26:6: )۲۸-۱۶( 


۶:-۱۶ JULI 
احسب التحلل الطيقي للمصفوفة في الأمثلة ۲-۱۶ وع۳-۱.‎ 
يتم توضیح التحلل الطيفي للمصفوفة التطابقة التالية في الأمثلة ۲-۱۶ وع۳-۱ كما ياي:‎ 
0.2469 —0.1358 
—0.1358 0.2469 
A, = 0.3824 و۸‎ = 0.1115 


A= 


1 
2 
ea =|? 
۷2 
= 
2 
e, = |۶2 
V2 


YEI‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات استکشاف bul‏ اختتزال A‏ البيانات 


0.2469 —0. 1358 
—0.1358 0.2469 


= 0.3824 4 


1 
|ly2 al‏ 1 
7/2 
0.0558 مر ای وا 0.1912 _ 
0.0558 0.0558 0.1912 0.1912— 


0.1912 FEA Pee 0.0558 
—0.1912 0.1912 0.0558 0.0558 


A = Ay e1e4 + À2€263. 


وتسمى المصفوفة 4 المتطابقة .p Xp‏ با مصفوفة ا محددة ابلوجبة positive definite)‏ 
, 1 22 
(matrix‏ إذا حققت التالي لأي متجه غير صفري = | أ # 


x'Ax > 0.‏ 
المصفوفة A‏ المتطابقة م × م هي مصفوفة محددة موجبة ]13 وإذا كانت فقط كل 
قيمة ذاتية ل 4 أكبر من أو تساوي الصفر )1998 (Johnson and Wichern,‏ على 
سبيل JEL‏ المصفوفة التالية 2.4 ×2 ۰ هي مصفوفة محددة موجبة بقيمتين ذاتيتين 


موجبتين: 


استكشاف البيانات: نظريات وخوارزميات وأمثلة rev‏ 


الجزء الرابع 


ja 4 = [02469 -0.1358 
—0.1358 0.2469 


A, = 0.3824 ۸ = 5 


لتكن A‏ مصفوفة محددة موجبة Xp‏ م بقيم ذاتية مرتبة كالتالي ... < 42 < :۸ 
Ap < 0‏ < وبقيم ذاتية مطبعة مرتبطة.,م© ,... ,€2 €r,‏ والتي تكون متعامدة. الشكل 
التربيعي. (×)/(×4')» يتم تعظيمه إلى القيمة Ay‏ عندما =e;‏ ىت وهذا الشكل 
التربيعي يتم تصغيره إلى القيمة dp‏ عندما مت = (Johnson and Wichern, 1998) .x‏ 


وهو ما یعنی» أن لدينا ما يلى: 
فى 
x Ax‏ 
MaXys9—— =A, attained byx = e,‏ 
xx‏ 
أو 
p +‏ 
x Ax‏ 
ax 6-1‏ = إل = ره ede, = ej X Mere;‏ 
xX‏ 
i=1‏ 
1 
i x Ax‏ 
min,go r77 =A, attained byx = ep‏ 
XxX‏ 
أو 
p f‏ 
x Ax‏ 
sae) ep = Ap = minxzo 7 (۳۰-16)‏ >( يف 
z xx‏ 
t=1‏ 
3 
x’ Ax ۲ ۱‏ 
MAX x senet zry Ate attained by x = enop i=1,..,p—1 )۳۱-۱(‏ 


YEA‏ استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


خوار زمیات استكشاف bul‏ اختزال البيانات 


۳-۶ تحلیل 7 الرئيسة ۱77 3 7۳ 


يوضح تحلیل ابلکونات الرئيسية مصفوفة التباین- التغاير للمتغیرات. إذا كان لدینا 
متجه متغیرات [X Xp]‏ “ا مع مصفوقة التباین- التغایر 22» فيما يلي هثل تركيباً خطياً 
لهذه المتغيرات: 


QiaX2 +۰۰۰ + QipXp (¥¥-\€)‏ + ده = ۵ = Yi‏ 
يمكن حساب التباين والتغاير ل زنز على النحو التالي: 
var(y;) = ai) äi )۲۳-۱۶(‏ 
cov(y;,¥j) = aia;. )۳۶-۱۵(‏ 


يتم اختیار المكونات الرئيسية Ya Yo]‏ ,ر/='ر لتکون ترکیبات خطية ل × والتي 
تحقق ما يلي: 


وه + ++ Q22‏ + نویه = aX‏ = و 


(ع۳۵-۱) [<ره,'ه » يتم اختیار a;‏ لتعظیم قيمة var (y1)‏ 


var(y2) لتعظیم قيمة‎ a2 يتم اختیار‎ » a"2a2=1, cov(y2,y1)=0 
Yi = AX = وله‎ + QizXz +--+ AipXp. 
var(yi) يتم اختيار :2 لتعظیم قيمة‎ J<i ,1ه » لكل‎ cov(yiy)=0 


استکشاف البیانات: Gb bs‏ وخوارزمیات وأمثلة ۳۹ 


الجزه الرايع 


لتكن ata (Ai, ei), i= 1, ..., Pp‏ ومتجهات ذاتية متعامدة E J‏ 1= بهرت 
RIZ 4 < ... < > Ap 2‏ بوضع €p‏ <مت,... ,ر8 <47 يكون لدينا: 


i=1,..,p (1-16)‏ +67 < رب 
HA =1‏ 
var(y;) = ej Ze: = A;‏ 
cov(y yj) = (6, 20 forj<i.‏ 
oly‏ على المعادلات من ۲۹-۱۶ إلى ۳۱-۱۶ Yi Ó‏ طر,... I=L,‏ والمعدّلة بالمعادلة VE‏ 


١‏ تحقق متطلبات اللكونات الرئيسية في المعادلة ع۳۵-۱. بالتالي, يتم تحديد المكونات 
الرئيسية باستخدام العادلة ۳1-1٤‏ . 


fave Xp مجموع التباینات‎ Og على التوالي.‎ OF ۰ Op لها التباينات‎ XI ow Xp لنجعل‎ 
:VJohnson and Wichern, 1998) yi cue Yp مساوياً لمجموع تباينات‎ x 


p P 


2 var) = +۰۰4 و6‎ < >. vara = Ay te +p. (ع۳۷-۱)‎ 


i=1 i=1 


مثال 20-4¢ 


قم بتحديد المكونات الرئيسية للمتغيرين في اطثال ۰۱-۱ للمتغيرين ,]اد في 
الجدول ١-١6‏ والمثال ۱-۱۶ تكون مصفوفة التباين- التخایر ‏ على النحو التالي: 


r= | 0.2469 —0.1358 
—0.1358 0.2469 J’ 


وباستخدام القيم الذاتية والمتجهات الذاتية المحددة في الأمثلة ۲-۱۶ وع۳-۱: 


۳0۰ استكشاف البيانات: نظريات وخوارزميات وأمثلة l‏ 


خوار زمیات اس استکشاف ف أفاط J baa‏ البيانات 


p = 0.3824 A, = 0.1115 


a 
7 
-1 


€= 


8 


0 
al- اه‎ 


تكون المكونات الرئيسية: 
1 1 ; 
مجح — yı = € = -5X7‏ 


۷2 


eT 
Yo = 62 = -= X7 + — Xg- 


v2 


وتكون التباينات ل y29 Yr‏ : 


var(y,) = var 6 g“ - ah 3 


= (=) var(x7) + =) var(xg) + 2 (5) 3 cov(x7, xg) 


1 1 
=> (0.2469) + 2 (0.2469) — (—0.1358) = 0.3827 
=A, 


استکشاف البیانات: نظریات وخوارزمیات Atal‏ ۳۵۱ 


الجزه الرابع 
DILAN AAT TOOTS‏ 


var = var X + — 535 
(y2) 6 7 V2 8 


= (4) var(xz) + (4) var(%g) + 2 (3) (=) cov(%7, Xg) 


1 1 
= 5 (0.2469) + > (0.2469) + (0.1358) = 0.1111 
= Az 


ويكون لدينا أيضاً: 
var(x;) + var(xg) = 0.2469 + 0.2469 = var(y,) + var(y2) = 0.3827 + 0.1111.‏ 


وتكون نسبة مجموع التباينات المحتسبة في المكون الرئيسي الأول Vi‏ هي 
0.3824/0.4939=0.7742 أو X77‏ وحيث إن معظم مجموع التباينات في a]‏ 7[ د 
= تم احتسابها بواسطة رز قد نستخدم ,نز ليحل محل وليمثل بالأساس المتغيرين X7‏ 8× 
دون فقدان الكثير من التباينات. وهذا هو أساس تطبيق PCA‏ لاختزال أبعاد البيانات 
باستخدام عدد قليل من المكونات الرئيسية لتمثيل عدد كبير من المتغيرات في البيانات 
الأصلية وفي الوقت نفسه يتم تمثيل الكثير من التباينات في البيانات. وباستخدام عدد قليل 
من المكونات الرئيسية لتمثيل البیانات» يمكن زيادة تصورنا للبيانات في فضاء أحاديء ثنائي» 
أو ثلاڻي الأبعاد من المكونات الرئيسية لرصد أتماط البیانات» أو يمكن التنقيب أو البحث عنها 
أو تحليلها للكشف عن أماط بيانات للمكونات الرئيسية. لاحظ أن المعنى الرياضي لكل 
مكون رئيسي كتركيب خطي لتغير البيانات الأصلية ليس بالضرورة أن يكون له تفسير ذو 
مغزى في مجال اللشكلة المبحوثة أو المستهدفة. يعطي يي )1998 ,1997 (Ye,‏ بعض 
الأمثلة لتفسير البيانات التي لا يتم تمثيلها في مجال المشكلة الأصلية. 


ror‏ استکشاف البیانات: نظريات وخوارزميات وأمثلة 


خوار زميات استكشاف bul‏ اختزال البيانات 


:(Software and Applications) البرمجيات والتطبيقات‎ t-16 


يتم دعم استخدام PCA‏ من قبل العديد من حزم البرمجيات الإحصائية: ما في ذلك 
STATISTICAs <www.spss.com) SPSS SAS  (www.sas.com)‏ 
.(www.statistica.com)‏ ويتم إعطاء بعض تطبيقات PCA‏ في المجالات الصناعية في يي 
(Ye, 2003, Chapter 8)‏ 


(Exercises) التمارين‎ 

۱ قم بتحديد المكونات الرئيسية وك .... X‏ في الجدول ۱-۸ وتحديد المكونات 
الرئيسية التي هكن استخدامها لتمثل 11٠١‏ من مجموع تباينات البيانات. 

۱ قم بتحديد المكونات الرئيسية ل :2 و 2* في الجدول Y-Y‏ 


۳٩‏ کرر التمرين ۲-۱۶ ل وك .... .2 وحدد المكونات الرئيسية التي يمكن استخدامها 
لتمثل 7٩۰‏ من مجموع تباينات البيانات. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة ror‏ 


_خوار زمیات استكشاف bial‏ اختزال البيانات 


sai المتعدد‎ wen 10۵ 
Multidimensional Scaling - MDS 


Gags‏ القياس المتعدد الأبعاد (Multidimensional Scaling-MDS)‏ إلى تمثيل 
البيانات عالية الأبعاد في فضاء منخفض الأبعاد بحيث هكن تصور البيانات» وتحليلهاء 
وتفسيرها في فضاء منخفض الأبعاد للكشف عن أنماط بيانات مفيدة. یصف هذا الفصل 
القياس المتعدد الأبعاد (MDS)‏ وحزم البرمجيات التي تدعمه. وبعض تطبيقاته مع المراجع 
ا مستخدمة. 


۱-۵ خوارزمية القياس المتعدد الأبعاد :(Algorithm of MDS)‏ 


ليكن معطى لنا عدد ۸ من polis‏ البيانات في فضاء بعدد p‏ من الأبعادء ,..., X= (Kil‏ 
Xp)‏ حيث d=], ..., RO)‏ وهقیاس للاختلاف أو عدم التشابه ôy (dissimilarity)‏ لكل 
زوج Xi)‏ و ) من عناص البيانات التي عددها A‏ وترتيب هذه الاختلافات من الزوج الأقل 
تشابهاً إلى الزوج الأكثر تشابهاً: 


٠٠١ S Sings (1-10)‏ > وزوزة > رروزة 


حيث ترمز M‏ إلى العدد الإجمالي لأزواج البيانات الختلفة. و M= n(n-1)/2‏ لعدد n‏ 
من عناصر البيانات وينبغي للقياس اللتحدد الأبعاد (Young and Hamer, (MDS)‏ 
oe‏ إيجاد إحدائيات عناصر البيانات ۸ في فضاء p‏ من الأبعاد :2 

(Zit, ....x19), 1, ..‏ = وتكون 4 أصغر بكثير من ص مع ابلحافظة على اختلاف polis‏ 
البيانات 2 الواردة 3 امعادلة ۱-۱۵ يكون القياس ne‏ الأبعاد (MDS)‏ غير متري 
(nonmetric)‏ ]13 تم الحفاظ على ترتيب الاختلاف في المعادلة 1-10 ويذهب القياس 
المتعدد الأبعاد المتري Gnetric)‏ إلى ee‏ من ذلك ليحافظ على مقدار الاختلاف. يشرح هذا 
الفصل القياس المتعدد الأبعاد غير المتري. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة yoo‏ 


الجزء الرابع 


يعرض الجدول ۱-۱۵ ۳۳ خوارزمية القياس المتعدد الأبعاد | (MDS)‏ لإيجاد 
إحداثيات عناصر البیانات ۸ في فضاء بعدد g‏ من الأبعادء مع الحفاظ على اختلاف سجلات 
البیانات ۸ الواردة في المعادلة ۰۱-۱۵ في الخطوة ۱ من خوارزمية (MDS)‏ يتم تولید التهيئة 
الأولى لإحداثيات سجلات البیانات ۸ في clad‏ 4 من الأبعاد باستخدام قیم عشوائية بحيث 
لا يكون لسجاي بیانات القیم نقسها. 
في الخطوة ۲ من خوارزمية (MDS)‏ يتم استخدام ما يلي لتطبيع Xi > (Xil, ..., Xig)‏ 


حيث إن # ,... ,/ از : 


Xij 


۲-۵ 
8 + x2, ۳۹9 


في الخطوة ۳ من خوارزمية (MDS)‏ يتم استخدام التالي لحساب ما یسمی بجهد التهيئة 
(stress of confi guration)‏ الذي يقيس مدی جودة محافظة التهيئة على اختلاف 
سجلات البيانات ۸۶ الواردة في المعادلة ۱-۱۵ (Kruskal, 19644, b)‏ 
a 2‏ 
Xyldy = åy)‏ 
di;‏ ونیا 


normalized x;; = 


)۲-۱۵( 


Cur‏ إن © بقیس الاختلاف ل :× و ز× باستخدام إحداثياتها في lad‏ بعدد 9 من الأبعاده 
وتعطي القيمة dj;‏ الاختلاف المنشود ل :× و زد الذي یحافظ على ترتیب الاختلاف ل 
dys‏ في املعادلة ۱-۱۵ بحیث یکون: 

dı; < dry if Êy < By. (6-10) 


hoy‏ أن هناك عدد 2/ )1-1( 7 زوج مختلف من ۶ و j‏ في المعادلات ۳-۱۵ و6-10. 


۳0 استكشاف البیانات: نظريات وخوارزمیات وأمثلة 


Generate an initial configuration for the coordinates of n data 
بن‎ Angh 


2 Normalize x; = (xq, ..., X) i= 1, ..., n, such that the vector for 


خوارز زمیات استكشاف bul‏ اختزال Cli‏ 


الجدول )3-10( 
خوارزمية القیاس التعدد الأبعاد (MDS)‏ - (إنجليزي وعري) 


Step Description 


= 


points in the q-dimensional space, (Xip < Xir +++ Xa 
such that no two points are the same 


each data point has the unit length using Equation 15.2 


3 Compute 5 as the stress of the configuration using Equation 15.3 


REPEAT UNTIL a stopping criterion based on S is satisfied 
Update the configuration using the gradient decent method 


n e 


and Equations 15.14 through 15.18 


6 Normalize بد‎ = (Xa, -.-, Xy) i = 1, .... n, in the configuration 


using Equation 15.2 


7 Compute 5 of the updated configuration using Equation 15.3 


الخطوة 


۱ 


استکشاف البیانات: نظريات وخوارزميات وأمثلة 


قم بتولید تهينة أولية لاحدائیات سجلات البیانات 7 فضاء ۾ من الأبعاد 
Xalos Xag)‏ ,... وول ,... (XI‏ بحيث لا يكون لسجلي بيانات القیم نفسها 
قم بتطبیع. (Xil ,.... Xig)‏ حزند حیث d=], ..., N l‏ بحيث يكون طتجه كل 
سجل بیانات نفس طول الوحدة باستخدام املعادلة ۲-۱۵. 

قم بحساب 5 كقيمة لجهد التهيئة (configuration Stress)‏ باستخدام 
ایلعادلة ۲-۱۵. 

كرر ( (REPEAT‏ حتی (UNTIL)‏ یتحقق شرط التوقف المبني على أساس 
قيمة S‏ 

حدث التهيئة ) (configuration‏ باستخدام طريقة الهبوط المتدرج وا معادلات 
من ۱۶-۱۵ إلى ۱۸-۱۵ 

قم بتطبیع» (Kit, Xig)‏ ره حیث d=], ..., A O]‏ باستخدام ا معادلة ۲-۱۵. 
قم بحساب s‏ للتهيئة المحذثة باستخدام ۳-۱۵. 


۳0۷ 


۳15 ل الساقة الإقليدية as distance)‏ الواردة في ابلعادلة ۵6-۱۵ أو 
مسافة مينكوسكي r‏ المترية XYI (Minkowski r-metric distance)‏ عمومية في 
المعادلة ۰1-۱۵ أو هکن استخدام بعض مقاییس الاختلاف الأخرى لحساب ij‏ 


dij سح‎ (0-40) 


X (du. - dj) 


k=1 


1 
dy = Yen 5 7 ۱ (1-40) 


يتم التنبؤ بقيم كرك من قيم dys‏ باستخدام خوارزمية الانحدار الرئيسية الموضحة 
monotone regression algorithm))‏ في (Kruskal, 1964a,b)‏ لإعطاء: 


daj S ورور‎ S ٠٠١ > دزو‎ )۷-۱۵( 


وبالرجوع للمعادلة المعطاة في ۱-۱۵: 
S iM‏ ۰۰ > وزيز ك ija‏ 
یوضح الجدول ۲-۱۵ خطوات خوارزمية الانحدار الرتيبة» على افتراض أنه لا يوجد تعادل 


(قيم متساویة) بين قیم کززق. في الخطوة ۲ من خوارزمية الانحدار الرتيبة, يتم حساب مرو 
للكتلة Bm‏ باستخدام متوسط وقیم کر في Bm‏ 


۲ d;; 
don 2 Nn 9 
m 


dijEBm 


۳۵۸ استكشاف البیانات: نظريات وخوارزمیات وأمثلة 


خوار زميات | استكشاف bul‏ اختزال البيانات 


diy فقط ا فان‎ By J زا كان‎ Bed ۳. شود‎ bs 


liiij = 


في الخطوة ۱ من خوارزمية الانحدار الرتيبة» إذا كان هناك تعادلاً في القيم بين زق يتم 
ترتيب dys‏ ذات القيمة المتساوية في ترتيب متصاعد حسب قيم نظيراتها dys‏ في فضاء q‏ 
من الأبعاد (Kruskal, 1964a,b)‏ هناك طريقة أخرى للتعامل مع تعادل القيم بين OS‏ 
Wg‏ بجعل هذه القيم المتساوية ل dys‏ تشگل كتلة واحدة مع ما يناظرها من قيم dis‏ 
في هذه الکتلة. 


بعد استخدام طريقة الانحدار الرتيبة للحصول على قيم كر 4 . نقوم باستخدام المعادلة 
۳-۵ لحساب جهد التهيئة في الخطوة ۳ من خوارزمية MDS‏ كلما كانت قيمة S‏ أصغرء 
كان أفضل للتهيئة أن تحافظ على نظام ترتيب الاختلافات في المعادلة ۱-۱۵. يعد كروسكال 
(Kruskal, 1964a,b)‏ أن قيمة S‏ المساوية ل (ZV)‏ تدل على ضعف hië‏ ومطابقة 
التهيئة لترتيب الاختلاف في المعادلة ۱-۵ وقيمة S‏ المساوية )+41( Jus‏ على تمثيل ومطابقة 
مقبولة» وقيمة S‏ امساوية (X0)‏ تدل على جودة التمثيل والمطابقة. وقيمة S‏ المساوية 
(#37,0) تشير إلى تمثيل ومطابقة ممتازة وقيمة S‏ المساوية لصفر(٠*)‏ تدل على أفضل تمثيل 
ومطابقة. 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۵۹ 


الجزء الرابع 


الجدول (۲-۱۵) 
خوارزمية الاتحاد الرتيبة - (إنجليزي وعربي) 
Step Description‏ 


1 Arrange Ögj M = 1, ..., M, in the order from the smallest to the largest 
Generate the initial M blocks in the same order in Step 1, B,, ..., By, Stich that each 
block, B has only one dissimilarity value, یر‎ and compute dy using Equation 15.8 
3 Make the lowest block the active block, and also make it up-active; denote B as the 
active block, B_ as the next lower block of B, B, as the next higher block of B 
4 WHILE the active block B is not the highest block 


5 IF da. <å, < âad" B is both down-satisfied and up-satistied, note that the lowest 
clock is already down-satisfied and the highest block is already up-satisfied */ 


6 Make the next higher block of 8 the active block, and make it up-active 
7 ELSE 

8 IF B is up-active 

9 IF da > dq, /* B is up-satistied */ 

10 Make 8 down-active 

11 ELSE 

12 Merge B and B, to form a new larger block which replaces B and B, 
13 Make the new block as the active block and it is down-active 

14 ELSE /* B is down-active */ 

15 IF å; <d,/* B is dowr-satisfied */ 

16 Make B up-active 

17 ELSE 

18 Merge B_ and B to form anew larger block which replaces B_ and B 
19 Make the new block as the active block and it is up-active 


20 d= dy, for each dy € B and for each block B in the final sequence of the blocks 


الخطوة الوصف 
١‏ رتب بزو .1 ,... ,192 ترتيباً تصاعدياً من الأصغر إلى الأكبر. 
Y‏ قم بتوليد عدد M‏ من الكتل (Blocks)‏ بنفس الترتيب المعمولة به في الخطوة A‏ 
بحيث يكون لدينا الكتل: ہ8 ,... ,ر8 بحيث تكون لكل Boy ALS‏ قيمة اختلاف 
واحدة فقط وهيء dimm‏ وقم بحساب و باستخدام اللعادلة ۸-۱0. 


۳۰ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزمیات ات bid‏ اختزال الب البيانات 


UP-) اجعل الكتلة الأقل هي الكتلة النشطة. واجعلها ایضاً الكتلة فوق النشطة‎ Y 
B نرمز بالرمز 8 للكتلة النشطة, وبالرمز 8 للكتلة التالية والأقل من‎ (active 
B وبالرمز +8 للكتلة التالية والأعلى من‎ 

٤‏ كرر (WHILE)‏ دام أن الكتلة النشطة B‏ ليست هي الكتلة الأعلى. 

a5 °‏ بول > و4 > -و8. 
(تعلیق: 8 تکون متحققة من الأسفل (down- satisfied)‏ و من الأعلى Up-)‏ 
boy (Satisfied‏ أن الكتلة الأقل هي بالفعل متحققة من الأسفل والكتلة الأعلى أيضاً 
متحققة من الأعلى). 

1 اجعل الكتلة التالية الأعلى ل 8 هي الكتلة النشطة, واجعلها أيضأ فوق النشطة. 

۷ خلاف ذلك (ELSE)‏ 

۸ إذا (IF)‏ كانت 8 هي US‏ فوق النشطة. 

(IF) 5‏ كان بو > dg‏ (مما يعني أن B‏ متحققة من الأعلى). 

ve‏ أجعل 8 هي الکتلة تحت النشطة. 

۲ خلاف ذلك (ELSE)‏ 

Ba و‎ B حجماً تستبدل‎ SÍ جديدة‎ US J SAI 8+ ادمج 8 و‎ W 

۳ اجعل الكتلة الجديدة هي الكتلة النشطة وتكون أيضاً تحت النشطة. 

۶ خلاف ذلك (ELSE)‏ (مما يعني أن تكون B‏ تحت النشطة). 

(IF)iy 0‏ كان Ag- > dp‏ (مما يعني أن 8 متحققة من الأسفل), 

١‏ اجعل B‏ هي الكتلة فوق النشطة. 

(ELSE) خلاف ذلك‎ W 

B و‎ B- و +8 لتشکیل كتلة جديدة أكبر حجماً تستبدل‎ B- ادمج‎ 1A 

٩‏ اجعل الكتلة الجديدة هي الكتلة النشطة وتكون أيضاً فوق النشطة. 


«dı; = dg us‏ كل B‏ € ن d‏ ولكل كتلة B‏ في السلسلة الأخيرة من الكتلات. 
تقوم الخطوة £ من خوارزمية ( (MDS‏ بتقييم جودة اللطابقة ( goodness-of-‏ 


(fit‏ باستخدام القيمة S‏ للتهيئة. إذا كانت قيمة S‏ للتهيئة غير مقبولة تقوم الخطوة ۵ من 
الخوارزمية بتغيير قيمة التهيئة لتحسين جودة المطابقة باستخدام طريقة ا المتدرج. 


استکشاف البیاتات: نظريات وخوارزمیات وأمثلة ۳۹ 


الجزه الرابع 


تقوم الخطوة ٩‏ من الخوارزمية بتطبيع متجه كل سجل fy‏ قيمة اهنا Bick!‏ 
تحسب الخطوة لا من الخوارزمية القيمة S‏ للتهيئة ا محدثة. 


في الخطوة ٤‏ من الخوارزمية. يمكن تعيين حد معين (threshold)‏ لجودة املطابقة 
واستخدامه بحيث تكون قيمة التهيئة مقبولة إذا كانت S‏ للتهيئة أقل من أو يساوي حد 
جودة المطابقة. ومن ثم فان شرط التوقف في الخطوة ٤‏ من الخوارزمية يظهر بحيث تكون 
قيمة S‏ أقل من أو تساوي حد جودة المطابقة. إذا كان التغيير في قيمة قيمة S‏ صغياً al ses‏ 
عندما تبدأ قيمة 5 في اميل للاستقرار بعد عدة تكرارات من تحديث قيمة التهيئة, ومن ثم 
فان إجراء تحديث قيمة التهيئة يمكن إيقافه أيضاً. لذلك فان تغيير قيمة كه التي هي أصغر 
من قيمة حد معین, يعتبر شرط توقف آخر للتكرار يمكن استخدامه في الخطوة ٤‏ من 
خوارزمية ال MDS‏ 

ol‏ طريقة الهبوط المتدرج لتحديث التهيثة 5 في الخطوة ۵ من خوارزمية MDS‏ هي 
طريقة مشابهة لطريقة الهبوط المتدرج ا مستخدمة لتحديث أوزان الارتباط في طريقة التعلم 
بالتوالد الخلفي للشبكات العصبية الصناعية (ANN)‏ 3 الفصل 0 7 الهدف من تحديث 
قيمة التهيثةء Xng)‏ ,... ,ام ,... ,و2 ,... (X11,‏ هو تقليل جهد التهيئة في المعادلة ۲-۱۵ 


والتي تظهر فيما يلي: 
a 2 8‏ 
|S (4-10)‏ _ بانط ça‏ 
Dij di, T* 0‏ 
حيث: 
2 5 
Sv = 2 ۵ - dı) )۱۰-۱۵(‏ 
ij‏ 
déj. (41-10)‏ 7 = 
ij‏ 


۳۲ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوارزميات استكشاف bul‏ اختزال البيانات 


dik z‏ الهبوط 5 نقوم بتحديث کل ۵:۷ حيث k=l, nn ot‏ و 
1= في التهيئة على النحو التالي (Kruskal, 1964a,b}‏ 


۳۳ 9 
)۱۲-۱۵( 


x(t + 1( = برحشه + )يرد‎ = X(t) + agr) li rr a h 
حيث إن:‎ 
Ju = oe, )۱۳-۱( 
02 


و © هي معدل التعلم. وللحصول على قيمة مطبعة ل عد تصبح العادلة ۱۲-۵: 


X(t + 1) = x(t) + برنشه‎ = X(t) + ۵ a 2 )۱۶-۱۵( 
اع‎ 


n 


pads‏ كروسكال (Kruskal, 1964a,b)‏ الصيغة التالية لحساب 2 إذا تم حساب قيمة 
di‏ باستخدام السافة امترية r‏ ملينكوسي Minkowski r-metric distance)‏ 


ze 4 -‏ 8 
2 - مه( besa”‏ یچ 34 1 لل ل) رم - ]2-۰ = 9 


)۱۵-۱۵( 
حيث إن‎ 
ki = 1 if k ع‎ ۱3 ۱۵ 
P ۳ ifk +i 9 


استکشاف البیانات: نظريات وخوارزمیات وأمثلة Yw‏ 


1 if xy — xX >0 
sign(x; — x) = 4-1 if xj - )رل‎ > 0 )۱۷-۱۵( 
0 if xu = 2 = 0 


إذا كانت 2-” في الصيغة ۱۳-۱۵ وهذا يعني أنه يتم استخدام المسافة الإقليدية لحساب 


dij 
۱ dy “dy اوه‎ (Xn xX 

gu =S) G =p) ا )==( 4 = نك‎ oe 
7 3 

مثال 24-40 


يوضح الجدول ۲-۱۵ BG‏ سجلات بيانات لتسعة متغيرات جودة. والتي هي جزء من 
الجدول ۱-۸. كما يوضح الجدول ٠٠٠١‏ المسافة الإقليدية لكل زوج من سجلات البيانات 
الثلاثة في فضاء تُساعي الأبعاد. يتم أخذ هذه المسافة الإقليدية الخاصة بزوج سجلات Gly‏ 
Xi‏ و oy‏ باعتبارها Jy‏ قم بتنفيذ خوارزمية القياس المتعدد الأبعاد (MDS)‏ لمجموعة 
البيانات هذه مع تكرار واحد فقط لتحديث التهيئة ل 2 = 4. وشرط التوقف “> 3 , 0.2 
a - 06‏ 

في مجموعة البيانات هذه يوجد ثلاث سجلات AEZ bly‏ في فضاء تساعي الأبعاد. 
لدينا 623=2 ,613=2.65 ,2=2.65ر. في الخطوة ۱ من خوارزمية MDS‏ الوضحة في 
الجدول 21-١0‏ نقوم بتوليد تهيئة أولية لسجلات البيانات الثلاثة في الفضاء ثنائي الأبعاد: 


.)1,0.5( = يد )0,1( < جد (1,1)- رد 


في الخطوة ۲ من خوارزمية MDS‏ نقوم بتطبیع كل سجل بيانات بحيث يحتوي على 
وحدة الطول, وذلك باستخدام الصيغة ۲-۱۵: 


CS Cpe ee APs ee PAST raf i "a T 
استكشاف البيانات: نظريات وخوارزمیات وأمثلة‎ vi 


خوارزميات استكشاف bul‏ اختزال ال البيانات 


AGS FASA > ۱۳532/۳۹۳ Y 


TE 
5 == فقي‎ | 12 + 12 74/12 + 2 


= )0.71,0.71( 


1 0 
وي 


X21 X22 ) ( ) (0 
,سس‎ [ ET. س‎ S 1) 


0.5 1 
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الجدول )10-¥( 
مجموعة البيانات لنظام اكتشاف الأعطال مع ثلاث حالات من الأعطال الآلية الأحادية 
متغيرات الخاصية عن جودة وحدات gal‏ 


۲ 5 Instance - ر قم الحالة‎ 
Attribute Variables about Quality of Parts Faulty - (الآلة امعطلة‎ 


XK X X (Machine‏ مد XB X7 Xs XS‏ وير 
(MI)‏ 1 1 ۵ 0 0 ۲ 0 ۰1 ۰ ۲ 
2(M2)‏ 0 1 0 1 0 0 0 ۱ 0 
I I 1 0 1 1 ©0 6 3(M3)‏ 0 
الجدول (6-16) 
المسافة الإقليدية لكل زوج من سجلات البيانات 
G=} CO=g} Ci = fxs}‏ 

265 265 Cran 

2 Cte} 

C=fxs} 


استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


eo الجزء‎ 


يتم حساب المسافة بين كل زوج من سجلات البيانات الثلاثة 3 الفضاء JB‏ الأبعاد ۳7 
إحداثياتها الأولية: 


dı2 = ¥ (x11 — X21)? + 12 - X22)? 
(0.71 = 0) + (0.71 = X22) = 7 


diz = y (X11 - X31)? + (x12 — %32)? 


(0.71 — 0.89)? + (0.71 — 0.45)? = 0.32 


Ņ (x21 ¬ X31)? + (22 — X32)?‏ = وول 
N (0 — 0.89)? + (1 — 0.45)? = 1.05.‏ = 


قبل أن نقوم بحساب age‏ التهيئة الأولية باستخدام الصيغة ۲-۱۵ نحتاج إلى استخدام 
خوارزمية الانحدار الرتيبة في الجدول ۲-۱۵ لحساب dij‏ في الخطوة ۱ من خوارزمية 
الانحدار الرتيبة» نقوم بترتيب Dimm‏ حيث m=], ..., M‏ ترتیباً تصاعدياً من الأصغر إلى 
الاک :M=3 aa‏ 


523 > ۵۱2 = 5 


ولأنه يوجد تعادل بين ۵,2 وور فان 8,2 5139 يتم ترتیبها تصاعدياً بناء على قیم d=‏ 
7 و :d13=0.32‏ 


,2 > 843 > ووة 


في الخطوة ۲ من خوارزمية الانحدار الرتیبة» نقوم بتولید الکتل (Blocks)‏ الأولية بعدد M‏ 
بنفس الترتیب في الخطوة ۸ By .... Bm‏ بحيث یکون لكل Bm ALS‏ قيمة اختلاف واحدة 
فقط. dinim‏ 

B, = {dz} B, = {dua} 1 = {da} 


mi‏ استكشاف ١‏ البيانات: نظرد یات وخوار زمیات وأمثلة 


hres‏ ميات استكشاف bul‏ اختزال البيانات 


4 dij; d 
dy, = 3 = = 5 
> 
dij 013 
da, = 0 5 032 
dıjEBz2 
p= ر‎ =z - 7 
dijEB3 


في الخطوة ۲ من خوارزمية الانحدار الرتيبة» نجعل الكتلة الأقل» :8 هي الكتلة النشطة: 
B=B, B_ = ۵ B, = By,‏ 


ونجعل 8 هي الكتلة فوق النشطة. و الخطة ۶ من خوارزمية الانحدار الرتیبة نقوم 
بالتحقق من أن الكتلة النشطة By‏ ليست هي الكتلة الأعلى. في الخطوة © من خوارزمية 
الانحدار الرتيبة» نقوم بالتحقق من أن das‏ > و4 ومن ثم لا تكون 8 مستوفاةٌ من 
الأعلى. نذهب إلى الخطوة ۸ من خوارزمية الاتحدار الرتيبة ونقوم بالتحقق من أن B‏ نشطة 
من الأعلي. في الخطوة ٩‏ من خوارزمية الانحدار الرتيبةء نقوم بالتحقق من أن بوك > dg‏ 
ومن ثم لا تكون B‏ مستوفاةٌ من أعلى. نذهب إلى الخطوة ۱۲ ونقوم بدمج B‏ و+8 لتشكيل 
كتلة أكبر جديدة لتحل محل By‏ ور 


B12 = {d23, dı3} 


استكشاف الییانات: نظريات وخوارزميات وأمثلة rv‏ 


الجزه الرابع 


a 0 7 dij _ مش خوية‎ 105 +032 


de, na 2 2 = 9 
dj ;EBy2 
By = (d23, d13} B; = {d,,} 
A d;; d 
â= ( = = 0.77. 
dijEB3 na 


في الخطوة ۱۳ من خوارزمية الانحدار الرتيبة, نجعل الكتلة الجديدة 82 هي الكتلة النشطة 
ونجعلها كذلك الكتلة تحت النشطة: 
B = Bip B_ = Û B, = By.‏ 


بالعودة إلى الخطوة £ نقوم بالتحقق من أن الكتلة النشطة Biz‏ ليست هي الكتلة الأعلى. 
في الخطوة 0 نقوم بالتحقق من أن B‏ مستوفاة أو متحققة من الأعلى مع dı» < å;‏ 
وایضاً مستوفاة من الأمفل. JU‏ نقوم بتنفيذ الخطوة 1 لجعل B3‏ هي الكتلة النشطة 
ولجعلها فوق النشطة: 


Bı2 = {dz3,d43} Bz = {dı2} 


: dij _ dza + dı _ 1.05 + 0.32 _ 
dij€B12 
dj d 


mA‏ استكشاف البیانات: نظريات وغوارزميات وأمثلة 


خوارز زميات ؛ استكشاف bul‏ اختزال ال البيانات 


بالعودة إلى ا bya ٤‏ ۳7 نقوم بالتحقق من a‏ تلك الکتلة النشطة B‏ هي الكتلة 
الأعلى. نقوم بالخروج من تعليمة التكرار (WHILE)‏ وبتنفيذ الخطوة ۲۰ وهي الخطوة 
الأخيرة من خوارزمية الانحدار الرتيبة» وإسناد القيم التالية الخاصة ب 5ز:0: 

diz = dp, = 0.77 


diz = de, = 0.69 


doz = رو‎ = 0.69. 


diy وقيم‎ d ij وبقيم‎ 
dı2 = 7 
dis = 0.32 
do = 1.05, 


نقوم الآن بتنفيذ الخطوة ۳ من خوارزمية MDS‏ لحساب جهد التهيئة الأولي باستخدام 
امعادلات ٩-۱۵‏ وحتى ۱۱-۱۵: 


= 2 (dı - dy)" 
3 


= (0.77 — 0,77(2 + (0.32 - 0.69)? 
+ (1.05 - 0.69)? = 0.27 


E RE 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۹۹ 


ob الجزء‎ 


هذا المستوى من الجهد يشير إلى ضعف جودة المطابقة (goodness-of-fit)‏ 3 
الخطوة ۶ من خوارزمية MDS‏ نقوم بالتحقق من أن 5 لا تحقق شرط توقف تعليمة 
التكرار (REPEAT)‏ 3 الخطوة ۵ من خوارزمية MDS‏ » نقوم بتحدیث التهيثة باستخدام 
المعادلات ۱۶-۱۵ 15-10 و۱۸-۱۵ مع 1,2,3 T= 1,29 k=‏ 


Da ae > ki _ pkj | CU زا‎ _ 1۶۱): Xn 
Gn = 14و‎ = 5 4 le م‎ 1 ç ود‎ dij | 
diz = di; d;; 2111 - 21 
Š > 12 __ تلش 2- — نام‎ 
pe |" - : (a s* 3 dij 


= (0.67) ۳ ptt — (12م‎ (M5 dı2 -( (= = 21) 


T° 012 
veto 
+o کے( نيع‎ 


0.32 - 0.69 0.32 /0.71 — 0.89 
+(1-0)( 0.27 - )چ‎ 0.32 ) 
1.05 - 0.69 1.05) /0 — 0.89 
ui ( 027 0 37) ( 1.05 ) 
= -3 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 


A 


0 عرو‎ NE 
۳۹ = ki _ akj ij ij Mi il” jt 
يرو‎ = gı2 =S 7 1 p 16 > و‎ (a )| 
- Åu 4١ [Xi - Xi 
iy j _ dy) (Xz ح‎ Xp 
- on [orn (tug) (2) 


+ 012 — dip 0121 (X12 — X22 
= (0.67) G —p**) كم‎ = a) (=z) 


* 
T 12 


+ 11م)‎ - p13) (= dis - 2) (= zan 
13 


dog - û 0 X22 — X 
+ ردم : نی‎ (BE 23 23 -#)( z 3 
23 


3 - م ول 7 - ۳ 5 K‏ )0.67( = 


0.27 061 0.77 
Raw (z — 0.69 a = = =) 
0.27 0.61 0.32 
1.05 - 0.69 1.05١ /1 - 0.45 
(0 - 0) ( 0.27 -a 1.05 ) 
= 1 


۱ 1/8 8 ال‎ (%_ — x 
= = ki _ kj 3 ty tj il jt 
Iu = 921 = 5 > 0 0 کچ(‎ > -74 (= )| 
۳ 8 d;: — ۳۳ d; X: = X; 
= 2i ز2ہ‎ ty ij Mis i1 j1 
(0.67) > 0 0 رب کچ(‎ a ) 


d —‏ 4 - ورك 
(a8)‏ )92 - 2 ۰ 12 عع ) م lon‏ )0.67( = 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۷۹ 


الجزه الرابع 


S* T* 


d23 — dos da3 م‎ = 5341 
22 _ 23 5 
+ (p-p ,) چ‎ tT Û r 


+ (p21 — p23) (e> dis ۳5 (= = ma) 


- (0.67) | 0-1) = -0.77 su (ee -~ J 


0.27 061 0.77 
0.32 — 0.69 0:32 /0.71 — 0.89 
ó 60-00) 0.27 - aaa) 0.32 
1.05-0.69 1.05١ /0 — 0.89 
PAs 0 027 ا‎ 1.05 ) 
= 1.07 


du) (Xin — Xn‏ رنه 
ا(4 - چ ) د | و = رم - 
ç 7. 3‏ م Gui = G22 A le‏ 
x ; di; = di; di; Xia — Xj2‏ 
ZZ‏ إا لإ poi‏ - 2 = 
7 د lo p 1 a‏ > )0.67( 


د - ورج/ اجب ,رن - ور 
22 12 2 _ 12 12 2 _ 21 5 
T* 1 012‏ 5 5 م men‏ 


)— =( تس (23م-21م) + 
T° 013‏ 


و ا ليه 
32 2 3 23 23 3 _ 22 
(p? — p”) ( 2 = ) )|‏ + 
1- 0.71/ \0.77 077-077 
[o 39 ( 027 AN 0.77 )‏ )0:67 = 


meet mm fT وی‎ ESSES رز و روز ور ورس‎ OR O E AAA A E ور‎ EE STE 
وخوارزمیات وأمثلة‎ Cob BS استکشاف البیانات:‎ ۳۷۲ 


خوار زميات است استكشاف blii‏ اختزا ال البيانات 


0.32 — 9 69_032) 071 - 048 


+ (0-0) ( 0.27 0.61 0.32 


1.05 - 0.69 1.05 /1 - 0.45 
AED ( 0.27 - aa) 1.05 )I 


= ~0.45 


dy Nae‏ رل 

| شبد )ريه (Et‏ مم [ot‏ )5= رو- 
p“) ç T+ 7‏ م 4 931 = 8 
ea ts‏ 2 ت | as)‏ 31 = 
dij )‏ د i 1 S*‏ م ,072 


= )0.67( Gi p3?) ("25 diz 5 =) (= = =) 


T° dı2 

dı - dû 0 و‎ xX 

31 _ 33 13 13 _ 13۱ (%11 1 
+" -=p 1 5 | ) dis ) 


d,,—d d Xo, — X 
32 _ 933) {223 — 423 _ 422۱ (X21 — X31 
+ )* - و‎ 1 s 72) ( dos ) 


= (0.67) [co — 0) a 5 = = - à 


0.27 0.61/\ 0.77 
0.32 - 0.69 0:32 /0.71 — 0.89 
+ (0 - 0) 0.27 = oar) ( 0.32 ) 
1.05 - 0.69 1.05) /0 — 0.89 
00-3 ( 0.27 ۰ a ( 1.05 ) 
= 0.90 


d;;— d; ; d; Xu — X; 
2 ki _ oki ز‎ - diy j it “jt 
Gui = 932 =S 3 GE ) نك‎ çr -2 ( dy 1 


استكشاف البيائات: نظریات وخوار رزمیات وأمثلة 


الجزه الرا ابع 
CMAP 1 TUDE Le 72‏ 


-d; d Xiz — Xi 
= 3i - ]ارقم‎ TE _. ۱9۱) 2:2 2 
oon [o (eza) 


= (0.67) Ge p°?) (e =) (= 2) 


+ (p?! — p33) (= - ور‎ = 2) (2 2 =) 
S* 


T* dı3 

ne - dos _ dz (= = =)‏ قوت و بد 
T” da3‏ 

0.77 — 0.77 0.77۱ /0.71 - 1 
00 ko ۳ ( 0.27 0 387) ( 0.77 ۱ 

+(0-1) (= — 0.69 | = - ~~) 
0.27 0.61 0.32 

ا — -( =< 0.69 — = )0-1 + 
5 \/0.61 027 5 


= 7 
2 (t + 1) = Xk (t) + 0۵2 = Xp (t) + قفاب‎ 


۳۹ 9 
7 
_ 911 
7: )1( = x4, (0) + 0.2 


Ji + 9% + LER + g3 + 9 + G32 
3 
—0.13 


|) + (—0.17)? + 1.072 + )-0.45(۶ + 0.902 + 0.772 = 
3 


= 0.71 + 0.2 


Yve‏ استکشاف البيانات: GL BI‏ وخوارزميات وأمثلة 


خوار زمیات blai ean‏ اختزا ال البيانات 


912 


سس PE L————‏ (0) وب = (1) دوع 
.9% + و + gia + giz + 934 * Gin‏ 


0.7 
Se =‏ ۷ ححح وم + 0.71 = 
0.772 + 0.902 + 0.45(2-) + 1.072 + ?)0.17—( + 0.13(2-) | 
3 
921 
سس 02+ )0( ,رد = x211)‏ 
Gh‏ + ,93 + .93 + ,وو + یو + 57 5 
1.07 
012 2 — 0.2 + 0 = 
0.777 + 0.902 + ?)0.45—( + 1.072 + 0,17)2—( + ?)0.13( 
3 
تسس 0.2 + X22(0)‏ = )22(1* 
gi t 912 + 924 2 922 + G31 + 932‏ 
0.4— 
س و ETT‏ 
0.772 + 0,902 + 0.45(2-) + 1.072 + 0,17(2-) + 0,13(2-) 
0.778 + 0.908 + ")0.45 + 1.077 + را CELE‏ 
931 


سس EF ET E RT‏ 0.2 + (0) رود = (1)رود 
gii + 912 + 25 t 922 + 931 + 932‏ 


= مس جع 0.2 + 0.89 = 
[Eoy + (—0.17)? + 1.072 + (—0.45)? + 0902 + 0.772‏ 
3 
932 

X32(1) = x32(0) + a re سس‎ 
۳۹ + giz + 921 > 922 + 931 + 932 

0.77 

= 0.45 + 0.2 1 54, 


0.13 + (—0.17)2 + 1.072 + (—0.45}2 + 0.902 + 0.772 
3 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۷۵ 


el sjal 


ومن ثم بعد تحديث التهيئة الأولية 3 ۳ 0 من خوارزمية «MDS‏ فإننا نحصل على: 
x, = (0.99,0.54).‏ (0.12,0.95) = و2 (0.70,0.63) = x,‏ 


في الخطوة ٠‏ من خوارزمية MDS‏ نقوم بتطبیع كل Xi‏ 


0.63 0.70 
)0.67 ,0.74( = تیم ویو 
V0.702 + 0.632‏ 0.632 + 0.702 
0.95 0.12 
ee) = (0.13, 0.99)‏ سیم = X‏ 
0.952 + ¥0.122 0.952 + ¥0.122 
0.54 0.99 
.)0.48 ,0.88( = ببس = X3‏ 
V0.992 + 0.542‏ 0.542 + 0.992 
الشكل )3-40( 
مثال على رسم الجهد الخاص بنتيجة القياس المتعدد الأبعاد (MDS)‏ مقابل عدد الأبعاد 
02 
0.18 
0.16 
04 $ 
0.12 ۳ 
0.1 
موه = 
0.06 2 
È 0.04‏ 
0.02 
0 
4 35 3 25 2 15 1 


Number of Dimensions - عدد الابعاد‎ 


m‏ استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


خوارن ريت 1 يكيف bul‏ اختزا ال البيانات 


:(Number of Dimensions) الأبعاد‎ ods ۲-۵ 


has‏ خوارزمية القياس المتعدد الأبعاد (MDS)‏ في الجزء ۱-۱۵ بالقيمة المعطاة ٩‏ وهي 
sus be‏ الأبعاد. قبل الحصول على النتيجة النهائية MDS‏ لمجموعة بيانات» ينصح 
باستخدام عدة قيم ل g‏ للحصول على نتيجة ال MDS‏ لكل قيمة G‏ ومن ثم نقوم بعمل 
رسم aged Gly‏ التهيئة مقابل g dod‏ ونقوم باختيار قيمة 4 من الرسم البياني عند النقطة 
التي يحدث فيها انعطاف واضح على شكل كوع الذراع واختيار القيمة المقابلة لنتيجة 
(MDS)‏ الشكل ۱-۱۵ يوضح رسماً Lily‏ للجهد مقابل ©. وتكون قيمة © عتد المنعطف في 
هذا الرسم هي ۲. يتم اختيار قيمة ‏ عند النعطف وذلك OY‏ الجهد يتحسن كثيراً قبل 
نقطة ا منعطف ولكته يستقر بعد نقطة المنعطف. على سبيل امثال. في الدراسة التي أجراها 
يي )1998 (Ye,‏ يتم الحصول على نتائج القياس المتعدد الأبعاد لقيم مختلفة خاصة ب q‏ 
q= 1,2,3,4,5,and 6‏ تظهر قيم الجهد لنتائج القياس المتعدد الأبعاد MDS‏ أن نقطة 
hahi‏ تكون عند 4=3. 


۳-۵ قياس الفروقات الفردية للقیاس المتعدد الأبعاد الموزون 
(INDSCALE Weighted IS):‏ 
في الدراسة التي أجراها يي )1998 (Ye,‏ »تم إعطاء عدد من الأشخاص pas)‏ هثلون 
عينات البحث - subjects‏ : مصنفين كمبرمجين خبراء ومبرمجين مبتدئين) AEB‏ تحتوي 
مفاهيم لغة البرمجة, C‏ وتم الطلب منهم أن يقوموا بتقدير الاختلاف لكل زوج من هذه 
المفاهيم. ومن ثم تم الحصول على مصفوفة اختلاف لمفاهيم dal‏ البرمجة C‏ من كل عينة 
بحثية. وباعتبار أن كل مفهوم برمجة Le‏ سجل بیانات» تم استخدام قياس الفروقات 
الفردية (INDSCALE)‏ في الدراسة لأخذ مصفوفات الاختلاف لسجلات البيانات من 
العينات البحثية (المبرمجين) كمدخلات ومن ثم استخراج المخرجات ها في ذلك التهيئة 
الخاصة بإحداثيات كل سجل بيانات في فضاء بعدد 9 من الأبعاد للمجموعة الكاملة من 
المبرمجين ومتجه وزن لكل مبرمج. يحتوي متجه الوزن لمبرمج ما على قيمة وزن لهذا المبرمج 
في كل بعد. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة rw‏ 


الجزء الرايع 


ان 5 الوزن ۱7 على تهيئة مجموعة سات si) es pst‏ 
إحداثيات المفاهيم المأخوذة من المبرمج - يتم تنظیم مفاهیم لغة البرمجة C‏ من قبل کل 
مبرمج. حيث أن متجهات الوزن ابلختلفة للمبرمجین الأفراد تعکس اختلافاتهم في تنظیم 
المعرفة. فإن الدراسة تطبق منهج تباين تحلیل الزوایا (ANAVA)‏ على متجهات الوزن 
الخاصة بالبرمجین الأفراد لتحلیل اختلافات الزوایا متجهات الوزن وتقبیم أهمية اختلافات 
تنظیم العرفة بين مجموعتین ممن ملك اطهارق الخبراء واطبتدئون. 

وبشکل عام فإن قياس الفروقات الفردية INDSCALE)‏ أو القیاس المتعدد الأبعاد 
الوزون (weighted MDS)‏ يأخذان مصفوفات اختلاف الخاصة بعدد 7 من الأهداف 
المبحوثة (objects)‏ من suc‏ +7 من العینات البحثية وینتجان digi‏ مجموعة إحداثيات 
الهدف الطبحوث: 


Xi = (Xin saia) i = 1, ..» ور‎ 
ومتجهات الوزن للعینات البحثية الفردية:‎ 
Wj = (wy رح‎ Wig) j = 1, ... m 


متجه الوزن لعينة بحثية تعكس البروز النسبي لكل بعد من فضاء التهيئة للعينة 
المحثية. 


(Software and Applications) البرمجبات والتطبيقات‎ ٤-۵ 


يتم دعم القياس المتعدد الأبعاد (MDS)‏ بالعديد من حزم البرمجيات الاحصائية, بما في 
ذلك SAS MDS‏ وإجراءات قياس الفروقات الفردية www.sas.com) IDNSCALE‏ 
ويرد تطبيق للقياس المتحدد الأبعاد (MDS)‏ وقياس الفروقات الفردية UDNSCALE)‏ 
لتحديد الاختلافات بين الخبراء واطبتدئین في تمثيل المعرفة في الجزء ۳-۱۵ بالتفاصيل في يي 
(Ye, 1998)‏ 


YVA‏ استكشاف البیانات: نظريات وخوارزميات وأمثلة 


خوارز ۳ زميات استکشاف أنماط اختزال البیانات 


التمارین (Exercises)‏ 
۱۲ استمر في عمل المثال ۱-۱۵ لتنفيذ التکرار التالي من تحدیث التهيئة. 


۲۲ بالنظر إلى مجموعة البیانات المكونة من BW‏ سجلات لبیانات في الحالات أرقام 0.£ 
و1 3 الجدول ۰۱-۸ استخدم المسافة الإقليدية لكل زوج Xi)‏ و ) من سحلات البیانات 
الثلاثة في clad‏ تُساعي الأبعاد بوصفها dy‏ ثم نقذ القياس المتعدد الأبعاد MDA‏ 
مجموعة البيانات هذه مع تكرار واحد فقط لتحدیث التهيئة ل 3= وشرط التوقف 
S > 5396, , 2 - 2‏ 


۲ بالنظر إلى مجموعة البیانات في الجدول ۱-۸ المكونة من تسع سجلات بیانات في 
الحالات .5-١‏ استخدم المسافة الاقليدية لكل زوج Xi)‏ و OF‏ من سجلات البیانات 
التسعة في الفضاء تساعي الأبعاد بوصفها y‏ ثم نفُذ القیاس المتعدد الأبعاد MDS‏ 
طلجموعة البیانات هذه تکرار واحد فقط لتحدیث التهيئة ل 4-3 وشرط التوقف 
2 = 0 , ,396 > فى 
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خوارزميات استكشاف DLE‏ المتطرفة والشاذة 
Algorithms for Mining Outlier‏ 
and Anomaly Patterns‏ 


خوار زميات اس استكشاف bial‏ المتطرفة والشاذة 


-١7 11‏ مخطط التحكم أحادي p‏ 


Univariate Control Charts 


المتطرف والشاذ هي سجلات بيانات تحيد بشكل كبير عن المعيار الذي تتبعه غالبية 
سجلات البيانات. قد يعود سبب ظهور السجلات الشاذة والمتطرفة إلى وجود عطل في آلة 
التصنيع» وبالتالي يتم 185 التحكم في عملية التصنيع, أو إلى وجود هجوم عبر الإنترنت بحيث 
يختلف سلوك الاستخدام إلى حد كبير عن سلوك الاستخدام الطبيعي لأنظمة الحاسوب 
والشبکات» وهلم جرا. يعد اکتشاف السجلات والقيم المتطرفة والشاذة أمرا مهما في العديد 
من الجالات. على سبيل rey JELI‏ اکتشاف عملية تصنیع doyle‏ عن التحکم والسيطرة 
بسرعة آمرا مهما للحد من تکالیف التصنیع من خلال تجنب انتاج مزید من الوحدات 
التالفة من منتج ما. كما أن الاکتشاف اطبکر عن أي هجوم عبر الانترنت يعتبر أمرأ حاسما 
لحماية آنظمة الحاسب والشيكة من الخطر. 

تعمل تقنیات مخطط التحکم (Control Chart)‏ على تعریف واکتشاف املتطرف 
والشاذ من البیانات على آساس Ghar]‏ يصف هذا الفصل مخططات التحکم أحادية المتغير 
التي تراقب متغيرا واحذا لغرض اکتشاف الوضع الشاذ. dros‏ الفصل السابع عشر مخططات 
التحكم المتعددة المتغيرات التي تراقب متغيرات متعددة في وقت واحد لغرض اكتشاف 
الوضع الشاذ. تشتمل مخططات التحكم أحادية المتغير الموضحة في هذا الفصل على مخطط 
التحكم لشوارتز (Shewhart control charts)‏ ومخططات تحكم المجموع التراكمي 
(CUSUM)‏ ومخططات تحكم التوسط المتحرك الوزون الأسي (EWMA)‏ ومخططات 
تحكم الدرجة التراكمية .(cuscore control charts)‏ وترد قائمة من حزم البرمجيات التي 
تدعم مخططات التحكم أحادية المتغير. وترد بعض تطبيقات مخططات التحكم أحادية 
المتغير مع الراجع. 


:(Shewhart Control Charts) مخططات التحكم لشوارتز‎ ١-55 


تشتمل مخططات التحكم لشوارتز على مخططات التحكم في اللتغير, So‏ منها يراقب 
متغيراً بالقيم الرقمية (على سبيل JEL‏ فُطر الثقب الذي تم alas‏ بواسطة آلة قطع معينة» 
ومخططات التحكم في خاصية متغير US cle‏ منها يراقب خاصية تلخص قيماً نوعية (على 
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الجزء الخامس 


سبیل U sjo JELI‏ العیب وغير 0 من Sed‏ ت se ebay‏ عند رصد E‏ من سحلات 
البیانات» تكون مخططات التحكم بامتغيرء على سبيل SU‏ تكون المخططات التالية قابلة 
للتطبيق: كمخططات التحكم بالمتوسط × لاكتشاف الحالات الشاذة المتعلقة بمتوسط 
(mean)‏ عملية do‏ ومخططات التحكم ب ۸ وى لاكتشاف الحالات الشاذة المتعلقة بتباين 
ما (variance)‏ عندما يمكن رصد سجلات بيانات فردية فقطء تكون مخططات التحكم 
بالمتغير. على سبيل المثال» مخططات التحكم الفردية. قابلة أكثر للتطبيق. بالنسبة إلى 
مجموعة بيانات بها سجلات بيانات فردية بدلا من عينات من سجلات البیانات يكون لكل 
من مخططي تحكم المجموع التراكمي (CUSUM)‏ في الجزء ۲-۱۱ ومخططات تحكم 
المتوسط المتحرك الموزون الأسي (EWMA)‏ في الجزء ١-17‏ مزايا أكثر من مخططات التحكم 
الفردية. 
الجدول )3-49( 
عينات من ملحوظات البيانات المرصودة 


العينة ملحوظات البيانات المرصودة في كل عينة متوسط العينة الانحراف المعياري للعينة 


Sample Standard Sample Mean Data Observations in Each Sample Sample 
Deviation 
AY, 21 Xirs sey Ny jy a. Xin 1 
Si Xi Kits ess Kija es Xin i 
Sm Xm Xml oon Xmj ۰۰۰ Xmn m 


نقوم بوصف مخططات التحكم بالمتوسط X‏ لتوضيح LAS‏ عمل مخططات التحكم 
لشوارتز. ليكن لدينا متغیر × الذي يأخذ عدد 7 من العينات لعدد n‏ من ملحوظات البيانات 
اطمرصودة والخاصة بعملية ما كما هو مبين في الجدول رقم .1-٠١‏ يفترض مخطط التحكم 
بمتوسط العينة X‏ أن x‏ موزعة طبيعياً ومتوسط عينات ۸ وانحراف معياري للعينات 6 
عندما تكون العملية تحت التحكم. 
يتم حساب قيمة :2 Sig‏ حيث 77,... f=,‏ 3 الجدول ١-١5‏ على النحو التالي: 


YAE‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات استکشاف bul‏ المتطرة فة والشاذة 


Ely- Ay 
n—1 1 


z= Diz: ii (۳-۱7) 
m 
m ۳ 

)15-€( تاه ع 
m‏ 


إذا كان حجم العينة n‏ كبيراء فان Zi‏ یتبع توزيعاً طبيعياً وفقاً لنظرية النهاية المركزية 
(central limit theory)‏ واحتمال أن یقع متوسط العينة ;× ضمن ثلاث انحرافات 
معيارية من متوسط العينات aly‏ حوالي 3۹۷ استناذا إلى دالة الكثافة الاحتمالية للتوزیع 
الطبيعى: 


> 


P(x—35 > 2: > ۲ 38) = 99.7% (0-4) 


وحيث إن احتمال أن يقع :× eb‏ ثلاثة انحرافات معيارية من متوسط العينات هو ۸۰,۳ 
فقط» فان متوسط العينة 7 هذا يعتبر متفردا أو ISL‏ وقد يكون ذلك ناجما عن عملية 
خارج السيطرة والتحكم. وبالتالي» عادةٌ ما يتم استخدام متوسط العینات القدر وحدود 
المسماة -Y‏ سيغما (3-sigma control limits)‏ والتي تشير إلى انحرافات 
معيارية أعلى أو أقل من متوسط العيتات نف باعتبارهما ابلحور (centerline)‏ وحدود 
التحكم UCL) (Control limits)‏ لحد التحكم LCL AYI‏ لحد التحكم (GoM‏ على 
التوالي» لمتوسط العملية التي تحت السيطرة في مخطط التحكم متوسط العينات T‏ 
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UCL = ۶ + 5 ۷۱0 


LCL = 2-18 (A-V1) 


مخطط التحكم X‏ يراقب Xj‏ من العينة i‏ الخاصة ملحوظات البيانات 
المرصودة. إذا وقع Fi‏ ضمن النطاق (UCL LCL]‏ فعليه تعتبر هذه العملية تحت 
السيطرة؛ وخلاف WS‏ نعتبر أنه تم اكتشاف الشاذ وتعتبر العملية خارجة عن السيطرة 
والتحكم. 

باستخدام حدود التحكم -Y‏ سيغما في مخطط التحكم ل VX‏ يزال هناك نسبة احتمال 
۳ أن تكون العملية تحت السيطرة ولكن تقع ملحوظة البيانات المرصودة خارج حدود 
السيطرة ويتم توليد إشارة خارج السيطرة (out-of-control signal)‏ عن طريق مخطط 
التحكم ل *. إذا كانت العملية تحت السيطرة ولكن مخطط التحكم يعطي إشارة خارج 
السيطرةء تكون الإشارة إنذارا خاطثا. معدل الإنذارات الخاطثة (rate of false alarm)‏ 
هي نسبة عدد الإنذارات الخاطئة إلى العدد الإجمالي لعينات البيانات التي يجري رصدها. 
إذا كانت العملية خارجة عن السيطرة ومخطط التحكم يولد إشارة خارج السيطرة. يكون 
لدينا زيارة ناجحة (hif)‏ معدل الزيارات الناجحة هو نسبة عدد الزيارات الناجحة إلى 
العدد الإجمالي من عينات البيانات. باستخدام حدود التحكم ۳- سيغماء ينبغي أن يكون 
لدينا معدل الزيارة الناجحة ۹4,۷ ومعدل الإنذار الخاطيء Lok‏ 

إذا لم يكن حجم العينة ۶ كبيراء فإن تقدير الانحراف المعياري بواسطة 5 قد يكون بعيدًا 
إلى حد do‏ وربما يحتاج المعامل ل 5 في المعادلة -YI‏ لا و۱1- ۸ أن يتم تعديله إلى قيمة 
مختلفة عن ۳ من أجل وضع حدود تحکم مناسية حتى تقع الغالبية العظمى من البيانات 
تحت حدود السيطرة [حصائیا. يعطي مونتغمري )2001 (Montgomery,‏ معاملات 
مناسبة لتحديد حدود التحكم لقيم متنوعة من حجم العينة N‏ 


اي LA I h i‏ 
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خوارزه ميات استكشاف ٠‏ أقماط المتطرة فة والشاذة 


يلور مد seal‏ ل ± کف تعمل مظان التحكم الإحصائية, مثل مخططات 
التحكم لشوارتزء على تأسيس المحور وحدود التحكم على أساس التوزيع الاحتمالي للمتغير 
الستهدف وتقدير معلّمات التوزيع من عينات البيانات. ويشكل عام» يتم تحديد قيمة 
محور مخطط التحكم مساوية للقيمة ابلتوقعة للمتغير» » ويتم تحدید حدود التحكم بحیٹ 
تقع الغالبية العظمى من البيانات في حدود التحكم إحصائيا. وبالتالي» يتم تعريف معيار 
(norm)‏ البيانات والشذوذ إحصائياء اعتماد! على التوزيع الاحتمالي للبيانات وتقدير 
معلمات التوزيع. 


تُعتبر مخططات التحكم لشوارتز حساسة للافتراض أن المتغير ا مستهدف يتبع توزیعا 
طبيعيا. أي انحراف عن هذا الافتراض الطبيعي قد يتسبب في أن يكون أداء مخطط التحكم 
لشوارتزء مثل مخطط التحكم ل ضعيفًاء علي سبيل JELI‏ إعطاء إشارة خارج السيطرة 
عندما تكون العملية في الحقيقة تحت السيطرة أو عدم إعطاء إشارة عندما تكون العملية 
هي 3 الحقيقة خارج السيطرة. نظرا لأن مخططات التحكم لشوارتز ترصد وتقیم عينة 
بيانات واحدة فقط أو ملحوظة بيانات مرصودة فردية واحدة في كل dpa‏ فان مخططات 
التحكم لشوارتز ليست فعالة في اكتشاف التحولات الصغيرة (small shifts)‏ على سبيل 
المثال» التحولات الصغيرة لمتوسط عملية ما والمراقبة بواسطة مخطط التحكم EJ‏ تعد 
مخططات تحكم المجموع التراكمي CUSUM‏ في الجزء -Y1‏ ۲ ومخططات تحكم المتوسط 
المتحرك الموزون الشي EWMA‏ في الجزء ۱7- ۲ أقل حساسية لافتراض طبيعية البيانات 
وهي فعالة في اكتشاف التحولات الصغيرة. يمكن استخدام مخططات تحكم المجموع 
التراكمي CUSUM‏ ومخططات تحكم المتوسط المتحرك الموزون EWMA gl‏ راقبة 
JS‏ من عينات البيانات وملحوظات البيانات المرصودة الفردية. وبالتالي» تكون مخططات 
تحكم الجموع التراكمي CUSUM‏ ومخططات تحكم ابلتوسط المتحرك الموزون الأسي 
ias ۸4‏ أكثر. 


استكشاف البيانات: انظرد یات وخوارزمیات ٠‏ وأمثلة TAY‏ 


(CUSUM Control Charts) اكمي‎ ۳ f ات تحكم‎ Y-T 


إذا كان low‏ سلسلة زمنية من ملحوظات البيانات المرصودة طتغبر ي بحيث تكون 


الملحوظات المرصودة: Xn‏ ,... ,رد » فإن المجموع التراكمي وصولًا إلى الملحوظة المرصودة 
رقم i‏ هو )3 (Montgomery, 2001; Ye, 2003, Chapter‏ 


3 
CS; = xc = Ho) (3-51) 
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حيث Ho‏ هي القيمة الهدف لتوسط العملية. إذا كانت العملية تحت السيطرة فمن 
المتوقع أن تتذیذب ملحوظات البیانات الرصودة بشکل عشوائي حول متوسط العملية, 
وبالتالي یبقی CS;‏ حول الصفر. GS‏ إذا كانت العملية خارجة عن السيطرة مع تحول لقیم 
x‏ من متوسط العملية. فان CS)‏ تظل في ازدیاد إلى تحول موجب (xi - ۸0 > 0 ah)‏ أو 
تظل في نقصان إلى تحول سالب. حتی إذا كان هناك 7 تحول صغير, فان أثر التحول الصغیر 
يستمر بالتراكم في CS:‏ ويصبح کبیرا إلى أن يتم اکتشاف خلله. libs‏ فان مخطط تحکم 
المجموع التراكمي CUSUM‏ بعد أكثر فعالية من مخطط التحكم لشوارتز للتحكم 
لاكتشاف التحولات الصغيرة لأن مخطط التحكم لشوارتز يفحص فقط عينة بيانات واحدة 
أو ملحوظة بيانات مرصودة واحدة. تُستخدم الصيغة 5-١1١‏ مراقبة ملحوظات البيانات 
المرصودة الفردية. إذا كان هناك امكانية لرصد عينات من سجلات البیانات» فإنه هکن 
استبدال :× في الصيغة ۹-١١‏ ب Xj‏ طراقبة متوسط العينة. 

إذا كنا مهتمين باکتشاف تحول موجب فقطء فيمكن بناء مخطط تحكم المجموع التراكمي 
CUSUM‏ من Wile‏ واحد 4514 إحصائية CS}‏ 


CS? = max[0,x; — (ho + K) + 65, (1۰-0 


حيث تُسمى K‏ القيمة المرجعية التي تحدد مقدار الزيادة من متوسط العملية flo‏ الذي 
نحن مهتمون باكتشافه. ولأننا نتوقع أن تکون Mot K‏ :× هي نتيجة لهذا التحول 
الإيجابي K‏ من ka‏ العملية ون فنحن نتوقع أن تكون xi - (K + po)‏ 
موجبة ونتوقع أن ڌ A‏ في حال أن بعض قیم زد تجعل 1 )+ 
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خوارز زمیات استكشاف ad tail bul‏ والشاذة 


WÝ ۰ ۰-۱ للصيغة‎ Ug القيمة صفر‎ sab cst بلا قيمة ساليةق تہ فان‎ nae 
هي باستخدام معيار‎ K dod مهتمون فقط بالتحول ال موجب. إحدى الطرق لتحديد‎ 
مهتمون باكتشاف تحول‎ Lal يشير إلى‎ K -0.56 الانحراف 6 من العملية. على سبيل المثال,‎ 
فوق المتوسط المستهدف. إذا كانت العملية تحت السيطرة. فنحن نتوقع أن تبقى‎ 0 
حول الصفر. وبالتلي, يتم بداية تحديد قيمة 0577 بالقيمة صفر:‎ CSE 


e 0. (11-17%‏ م9 

عندما يتجاوز CSE‏ حد القرار A‏ تعتبر العملية خارجة عن السيطرة. وعادةٌ ما 
تستخدم 7 = H‏ باعتبارها حد القراز بحيث مكن تحقيق معدل منخفض للإنذارات 
الخاطئة (2001 (Montgomery,‏ لاحظ أن H = So‏ آکبر من حدود التحکم ۲-سیغما 
المستخدمة بلخطط التحکم GE‏ الجزء ۱-۱۱ لأن CSP‏ ثُراكم تأثيرات ملحوظات البیانات 
المرصودة املتعددة بینما یقوم مخطط التحکم Z‏ بفحص ملحوظة بیانات واحدة أو عينة 
بیانات واحدة فقط. 
إذا كنا مهتمین فقط باکتشاف تحول سالب K>‏ من متوسط العملية فانه مكن slo‏ مخطط 
تحکم الجموع التراكمي CUSUM‏ بجانب واحد طراقبة إحصائية 5: 


CS; = max[0, (po - K) - x; + 65. )۱۲-۰۱۰( 


وحیث Li)‏ تتوقع أن تکون ‏ - Spo‏ :× نتيجة للتحول السالب» K‏ من 
متوسط العملية gio‏ فنتتوقع أن تکون (Ho K) -xi‏ موجبة. ونتوقع أن تحافظ 
CST‏ على الزیاده مع . وعادة ما تُستخدّم 50 = H‏ باعتبارها حد القرار لتحقیق معدل 
منخفض للانذارات الخاطثة )2001 (Montgomery,‏ يتم بدايةٌ تحدید قيمة CS;‏ 
بالقيمة صفر لأننا نتوقع أن تظل :کم قريبة من الصفر إذا كانت العملية تحت السيطرة: 


)1۳-17( .0 = و65 
يمكن استخدام مخطط تحكم ا مجموع التراكمي CUSUM‏ ثنائي الجانب مراقبة JS‏ من: 
:05 باستخدام مخطط تحكم المجموع التراكمي CUSUM‏ العلوي أحادي الجانب 


استکشاف البیانات: نظریات وخوارزمیات وأمقلة ۳۸۹ 


و Csr‏ با مخطط S‏ 23 الزاكمي CUSUM‏ السفلي ae‏ الجانب 
لنفس :د إذا تجاوزت أي من CSP‏ او CST‏ حذ القرار H‏ تعتبر العملية خارجة عن 
السيطرة. 


المثال ۱-۱۱ 

بالنظر إلى بیانات درجة حرارة الاطلاق (Launch Temperature)‏ في الجدول 0-١‏ 
والواردة 3 الجدول ۲-۱۱ كسلسلة من ملحوظات البيانات المرصودة مع مرور الزمن. إذا 
كان Law‏ المعلومات التالية: 

69 = ولا 
o=7‏ 
K = 0.50 = (0.5)(7) = 3.5‏ 
H = 50 = )5()7( = 35,‏ 

قم باستخدام مخطط تحكم المجموع التراكمي CUSUM‏ ثنائي الجانب طراقبة درجة 

حرارة الإطلاق. 


مس سس سه جب iid‏ وت بسحي سريب a‏ و n‏ سا PHF‏ کر ار a ee idaho‏ | 
۳۹۰ استكشاف البیانات: نظريات وخوارزمیات وأمثلة 


خوارزمیات استکشاف bude‏ المتطرفة والشاذة 


)۲-۱۰( “Igoe 
ملحوظات البيانات المرصودة لدرجة حرارة الإطلاق من مجموعة بيانات الحلقات الدائرية ذات‎ 
ثناني‎ CUSUM تحكم المجموع التراكمي‎ hihih الأحمال الثقيلة جنباً إلى جنب مع الإحصائيات‎ 


الجانب 
ملحوظة البیانات المرصودة : درجة حرارة الاطلاق cst x7‏ ی 
f i Launch Temperature x; Data Observation ۲‏ 
1 66 0 0 
2 70 1 0 
3 69 0 0 
4 68 0 0 
5 67 0 0 
6 72 0 0 
7 73 0.5 0 
8 70 0 0 
9 57 1 8.5 
10 63 1 11 
11 70 1 6.5 
12 78 5.5 0 
13 67 0 0 
14 53 2 12.5 
15 67 0 11 
16 75 2.5 1.5 
17 70 0 0 
18 81 8.5 0 
19 76 12 0 
20 79 18.5 0 
21 75 21 0 
22 76 24.5 0 
23 58 10 75 


وبتحديد قيمة أولية لكل من ;05و CSF‏ مساوية للصفر مما يعني )5 0= cSt‏ 
و0= CS0‏ نقوم بحساب كلا من CSI‏ 57 ): 


max[0,x, — {po + K} + CS] = max[0, 66 — (69 + 3.5) + 0] = max[0, —6.5] =‏ = رون 


CST = max[0, (uy — K) - x, + [ج05‎ = max[0, (69 - 3.5) — 66 + 0] = max[0,-0.5] = 
CST وبعدها نقوم بحساب 652و‎ 
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CS} = max[0, xz - (po + K) + CS] = max[0, 70 - (69 + 3.5) + 0] = max(0,-2.5] = 0 


CSz = max[0, (Wg - K) - x» + CST) = max{[0, (69 — 3.5) - 70 + 0] = max|0,—4.5] = 0. 


الشكل ١-55‏ 
مخطط تحكم ا مجموع التراكمي SLs CUSUM‏ الجانب لدرجة حرارة الإطلاق في مجموعة بيانات 
الحلقة الدائرية ذات الأخمال الثقيلة 


0 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 4 


(Observation i ( i الملاحظة رقم‎ 

وترد قيم CSE SCST‏ لكل 23,... ,2-3 في الجدول ۲-۱۲. يظهر الشکل ۱-۱۷ مخطط 
تحکم المجموع التراکمي CUSUM‏ ثنائي الجانب. لا تتجاوز قیم SCST‏ 5 لجمیع 
الملحوظات المرصودة ال ۲۳ do‏ القرار 77-35 وبالتالي» لم يتم اکتشاف أي dad‏ شاذة 
لدرجة حرارة الاطلاق. إذا تم تعيين حد القرار إلى H=30=(3)(7)=21‏ فسیتم الإشارة 
إلى الملحوظة الرصودة ۶-22 باعتبارها شاذة نظراً لأن CSF, = 24.5 > H‏ 

بعد أن يتم تولید إشارة خارج السيطرة. سوف یقوم مخطط تحکم املجموع التراکمي 
CUSUM‏ باعادة تهيثة :5و CSE‏ إلى قیمهما الأولية الصفر واستخدام القيمة الأولية 
ا مساوية للصفر لحساب 657و CSE‏ للملحوظة ASW‏ 


مس کرک شرس سس 
rar‏ استکشاف البیانات: نظریات وخوارزمیات واأمثلة 


خوارز led‏ زميات استكشاف bul‏ اللتطرفة والشاذة 


۳۳ 7 zor Y للمتوسط‎ ee مخططات‎ ۲-۲ 

(EWMA ControlCharts): 
وملحوظات‎ x لمتغير‎ EWMA يعمل مخطط التحکم للمتوسط المتحرك الوزون الأسي‎ 
(Montgomery, 2001; Ye, على مراقبة الاحصائية التالية‎ Xi بیانات مرصودة مستقلة‎ 
:2003, Chapter 4) 


zi = بد‎ + )1- 202 (e-1 
(0.1] حيث ۸ عبارة عن وزن في النطاق‎ 
Zo = p. (40-41) 


(Montgomery, 2001; Ye, 2003, Chapter 3) حدود التحكم هي‎ 


| A 

= (3-33) 

UCL = u + Lo 77 

LCL = p — Lo À 1 (1۷-17) 
2-2 


يقوم الوزن A‏ بتحديد التأثيرات النسبية لملحوظة البيانات المرصودة الحالية, Ki‏ 


وملحوظات البيانات المرصودة السابقة كما تم التقاطها من خلال :-:2 على :2. إذا عبرنا عن 
Zi‏ باستخدام Xj‏ حيث ا aer‏ ل t‏ 


استکشاف البيانات: نظريات وخوارزميات وأمثلة rr‏ 


Ax, + و-ب1-2(2)‎ 
Ax, + (1 X Ax. + )1- A)2,-2] 
dx; + (1 - ج2022 - 1( + بط(‎ 
= Ax, + (1 — AAG + (1 - (2 [و2(2 -1) + جوت‎ 
= Ax; + (1 ¬ Ax, + (1 — A)? Axia + (1 ¬ A) z,_, 


= Axi + (1 ج203‎ + (1A Ajay te + )1-2( ره‎ + (1 22x, (A-1 


يمكننا ملاحظة أن الأوزان زد حيث Xil, KP‏ » تتناقص بشکل اسي فعلى سبيل JEL]‏ 
عندما تكون A=0.3‏ يكون الوزن 0.3 ل xi‏ 5 0.21= )0.3( (0.7) ل لنت و0.147= 
0.37( )0.7( ل مود و0.1029- )0.3( )0.7( ل ود .... كما هو موضح في الشكل 
۰۲-۲ وهذا المصطلح يسمى مخطط تحكم المتوسط التحرك الوزون الأسي EWMA‏ كلما 
كانت قيمة ۸ آکبر كان تأثير ملحوظات البيانات المرصودة السابقة أقل, وكان تأثير ملحوظة 
البيانات المرصودة الحالية أكثر على إحصائية EWMA‏ الحالية, Zi‏ 
في المعادلات من ١4-11‏ وحتى ۱۷-۱7 Sale‏ ما يعمل إسناد قيم Lg AS‏ ضمن التطاقات 
التالية بشكل جيد )4 :(Monigomery, 2001; Ye, 2003, Chapter‏ 


0.05 > ۸ > 5 
2.651 > 3. 


ويمكن استخدام عينة بيانات لحساب متوسط العينة والانحراف املعياري للعينة كتقديرات 
لكل من غم و6. على التوالي. 


۳۹ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات استكشاف bui‏ | المتطرقا فة ة والفاذة 


سوم 
آوزان متناقصة أسياً على ملحوظات البیانات المرصودة 
035 
03 
025 


© 
iy 


(Weight ) الوزن‎ 
رح‎ 
a 


0.1 


الثال ۲-۱۱ 


بالنظر إلى بیانات درجة حرارة الاطلاق (Launch Temperature)‏ § الجدول 0-١‏ 
والواردة 3 الجدول ۲-۱۲ کسلسلة من ملحوظات البیانات الرصودة مع مرور الوقت. إذا 


کان لدينا ما يلي: 
p= 69‏ 
o=7‏ 
A= 0.2‏ 
L=3,‏ 


قم باستخدام مخطط تحكم المتوسط املتحرك ابلوزون الأسي EWMA‏ طراقبة درجات حرارة 
الاطلاق. 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 0 


الجزء الخامس 


LCL = p — Lo = 69 — (3)(7) 


2- 


الجدول (۳-۱۲) 
ملحوظات البيانات المرصودة لدرجة حرارة الإطلاق مجموعة بيانات الحلقات الدائرية ذات الأحمال 
الثقيلة جنبا إلى جنب مع إحصائية EWMA‏ ,لخطط تحكم ال EWMA‏ 


ملحوظة البيانات المرصودة i‏ درجة حرارة الاطلاق بيد 


Launch Temperature x; Data Observation i 

68.4 66 1 
68.72 70 2 
68.78 69 3 
68.62 68 4 
68.30 67 5 
69.04 72 6 
69.83 73 7 
69.86 70 8 
67.29 37 9 
66.43 63 10 
67.15 70 11 
69.32 78 12 
68.85 67 13 
65.68 53 14 
65.95 67 15 
67.76 75 16 
68.21 70 17 
70.76 81 18 
71.81 76 19 
73.25 79 20 
73.60 75 21 
74.08 76 22 
70.86 58 23 


۳۹1 استکشاف البیانات: نظريات وخوارزميات وأمثلة 


خوارزميات bul sus)‏ المتطرفة والشاذة 


الشكل mm‏ 
مخطط تحكم EWMA‏ لمراقبة درجة حرارة الإطلاق من مجموعة بيانات الحلقات الدائرية ذات 
الأحمال الثقيلة 


12 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ١7 18 19 20 21 22 23 


الملحوظة المرصودة رقم (Observation ۶ ( i‏ 
باستخدام Z0= U=69‏ « نقوم بحساب إحصائية 7EWMA‏ 


2, = Ax, + (1 - 2(2 = (0.2)(66) + (1 — 0.2)(69) = 68.4 


Z> = Ax, + (1 - 2(2, = (0.2)(70) + (1 — 0.2)(68.4) 
= 2 


وترد قيم إحصائية EWMA‏ ملحوظات البيانات المرصودة الأخرى في الجدول SVT‏ 
تبقى قيم إحصائية EWMA‏ لجميع ملحوظات البيانات المرصودة ال ۲۳ ضمن حدود 
التحکم» ]77.82 ,60.18[ = [ [LCL , UCL‏ ولا يتم اكتشاف أي قيم شاذة. يعرض 
الشكل ۲۳-۱۰ مخطط تحكم EWMA‏ مع إحصائية EWMA‏ وحدود التحكم. 

إذا تم ربط ملحوظات البيانات المرصودة ذاتيا (انظر الفصل ۱۸ لشرح الارتباط 
(autocorrelation ġà‏ فانه هکننا Jj‏ بناء نموذج التنبؤ بخطوة واحدة للأمام 13 
(step ahead prediction model‏ من البيانات المرتبطة ذاتياء ومقارنة ملحوظة بيانات 
مرصودة معينة مع قيمتها التنبئية بخطوة واحدة للأمام من أجل الحصول على الخطأ 
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ciel EET E WMA تحكم | ال‎ ER E (residual) أو امتبقي‎ lean) 
يتم حساب‎ (Montgomery and Mastrangelo, 1991) (residual data) امتبقية‎ 
على النحو التالي:‎ x; قيمة التنبؤ بخطوة واحدة للأمام ل‎ 


Zi-1 = Àxi-1 + (1 ر و-ر2(2-‎ (48-19) 


حيث 1 > 1 > 0 وهذا يعني أن :2 هو المتوسط المتحرك الموزون الشي EWMA‏ ل xi-‏ 
ا ويُستخدّم كتنبؤ ل ثم يتم احتساب خط التنبؤ أو المتبقي كما يلي: 

€i = Xi ¬ 2-1 ۰ (۳۰-17‏ 
في المعادلة 4-11 يمكن تعيين A‏ لتخفيض مجموع أخطاء التنبؤ التربيعية على مجموعة 
البيانات الاستكشافية أو التدريبية: 


A= arg min) ef . (1Y 
i 
إذا كان نموذج التنبؤ بخطوة واحدة للأمام هثل البيانات المترابطة ذاتيا بشكل جيد.‎ 
مستقلةٌ عن بعضها وتكون موزعةٌ طبيعيا بمتوسط يساوي صفر‎ EiS ينبغي أن تكون قيم‎ 
وانحراف معياري يساوي 0. يكون محور مخطط تحكم المتوسط المتحرك الموزون الأمي‎ 
راقبة :© عند مستوى الصفر كما أن لديه حدود التحكم التالية:‎ ۸4 


UCLe, = 8ط‎ )۲۲۰۱۰( 
LCLe, = -LĞe,-1 (F-1 
62,-1 = ae? + (1 — 08 (YE-17) 


۳۹۸ استکشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات استكشاف أنماط المتطرفة والشاذة 


fied amie Dues‏ 7۳۳ © > وتعطي ,8 تقدير 
القیمة Ge‏ ل Xi‏ باستخدام اطتوسط المتحرك !9394 EWMA gl‏ لأخطاء التنبؤ. 
باستخدام ا معادلة ۲۰-۱ والتي تعطي (-:2 + نع = زد OP‏ التحکم Loyd‏ :× مباشرةٌ بدلا 


من Ej‏ هو: 
UCLy, = Zi-1 + L@e,-1 (0-17)‏ 
LÛ e,-1 may‏ — و-ز2 = LCLy,‏ 


على غرار مخطط تحكم المجموع التراكمي CUSUM‏ یعتبر مخطط تحكم المتوسط 
المتحرك املوزون EWMA oll!‏ أكثر صلابة لفرضية طبيعية توزيع البيانات من مخططات 
التحكم لشوارتز (2001 (Montgomery,‏ خلاقًا لمخططات التحكم لشوارتزء فان 
ت ت Sed‏ المجموع التراكمي CUSUM‏ ومخططات تحكم التوسط المتحرك الموزون 
الأمي EWMA‏ تعتير فعالة في اكتشاف الحالات الشاذة ليس فقط للتحولات الكبيرة ولكن 
أيضًا للتحولات الصغيرة لأن مخططات تحکم الجموع التراکمي CUSUM‏ ومخططات 
تحكم المتوسط المتحرك اموزون الأسي EWMA‏ تأخذ في الاعتبار التأثيرات الخاصة 
ملحوظات البيانات المرصودة ابلتعددة. 


۶-7 مخططات تحكم الدرجة التراكمية (Cuscore Contol Charts)‏ : 


تكشف مخططات التحكم الموصوفة في الأجزاء من ١-17‏ وحتى ۳-۱۲ عن التحولات 
الخارجة عن السيطرة من المتوسط أو الانحراف ال معياري. تم تصميم مخططات تحكم 
الدرجة التراكمية (Luceno, 1999( (cuscore)‏ للكشف عن التغير من أي شكل معين 
من نموذج بيانات تحت السيطرة إلى أي شكل معين من نموذج بيانات خارج السيطرة. على 
سبيل JAL‏ يمكن بناء مخطط تحكم الدرجة التراكمية (Cuscore)‏ للكشف عن تخیر الیل 
ò‏ موذج خطي لبيانات تحت السيطرة على النحو التالي: 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۳۹۹ 


الجزء a‏ الخامس 


شموذج بیانات خارج السیطرة: 
(YA-41)‏ 00 ع 6 ر ۶ + 96 = yJ,‏ 


.6 والانحراف ال معياري‎ u= 0 هو متغير عشواني بتوزيع طبيعي والمتوسط‎ Er إن‎ Cur 
وبمثال آخرء يمكن أن يكون لدينا مخطط تحكم درجة تراكمية لاكتشاف وجود موجة جيبية‎ 
:7 داخل عملية تحت السيطرة مع وجود تباينات عشوائية من التوسط‎ (Sine wave) 
نموذج بيانات تحت السيطرة:‎ 
_ fant 
Ye =T + م8‎ sin (—) + &, 80 =0, (۳۹-۱7) 
تموذج بيانات خارج السيطرة:‎ 


ant 
Vt =T + sin 7 ) +e. (۰-17) 


لبناء إحصائية الدرجة التراكمية Cuscore‏ نأخذ في الاعتبار yr dod‏ كدالة عن بن 
والعلمة 9 والتي تميز عملية خارج السيطرة عن عملية تحت السيطرة: 
Ye = f (xe 8) (1-1‏ 


وعندما تكون العملية تحت السيطرةء يكون لدينا: 
(۳۲-۱۰) .80 = 6 


te‏ استکشاف البیانات: DL Bi‏ وخوارزمیات وأمثلة 


خوارزمیات ae: bui a‏ ليما 


ف BAI‏ الموضحين فى المعادلات من ۱ W-‏ وحتی ۱۹ -۳۰ فان ,ا تحتوي t‏ فقط Bog‏ = 
# عندما تكون العملية تحت السيطرة. 


يمكن حساب اللمتبقيء Er‏ عن طريق طرح القيمة المتوقعة Pp‏ من القيمة المرصودة Vr‏ 
Jr = ye — f (Xe 0) = Jt, Xe, 9). )۲۳۲-۱۰(‏ — 


عندما تكون العملية تحت السيطرة 5 يصبح لدینا مو8-8 ونتوقع أن تکون E1, 82, ... En‏ 
مستقلةٌ عن بعضها البعض, وكل منها عبارة عن pate‏ عشوائي غير مرتبط بمتغيرات عشوائية 
أخرى مع ملحوظات بيانات مرصودة ومستقلة. وبتوزيع طبيعي ومتوسط 0 H=‏ 
وبانحراف معياري 6. وهذا يعني أن المتغيرات العشواثية. En‏ ,... 62 ,ع لها توزيع طبيعي 
مشترك متعدد اللتغيرات وبدالة الكثافة الاحتمالية المشتركة التالية: 


1 _lyn ek 
فإبع ,...ريع)م‎ = 85) = ze quires, (€-۱17) 
(27)z 


2 1 گ‎ : 
Hen ليك‎ = 80) = ——In(2n) - و‎ eh. (vO) 


t=1 


كما يتضح من المعادلة ۳۳-۱۰ فإن Er‏ هي دالة من P (€1,..., En) O‏ في المعادلة -VI‏ 
۶ تصل إلى قيمة الإمكان القصوى (maximum likelihood)‏ إذا كانت العملية تحت 
السيطرة مع 0= O‏ يكون لدينا 6 حيث #,... ,1= » الموزعة بشكل طبيعي ومستقل 
ومتطابق, متواجدة في معادلة 56-17. إذا كانت العملية خارج السيطرة وكانت و6 © فلا 
تكون المعادلة ۳۶-۱۲ دالة كثافة الاحتمال المشترك الصحيحة ل En‏ .... 82 ,£ وبالتالي Y‏ 
تعطي قيمة الإمكان القصوى ل م6 .... ,62 ,/6. وبالتالي» إذا كانت العملية تحت السيطرة مع 
0 = 0 »> يكون لدینا: 
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QUE, ... 0ب‎ = Qo) = 
00 5 


0. (1-1 


پاستخدام المعادلة ٠٠-٠١‏ للتعويض عن En | 0 = Go)‏ ,..., :ع) / في المعادلة ٠١-١١‏ 
وإسقاط جميع حدود المعادلة التي لا علاقة لها ب 0 عند عمل الاشتقاق, يصبح لدينا: 


ع0 = 
سم a‏ 
1 


تكون إحصائية الدرجة التراكمية bhat Cuscore‏ تحکم الدرجة التراكمية للمراقبة 


:00 مساوية ل‎ 
n 7 
Qo = > Eto (- =e) = 2 Eto 0 (A-7 
00 
t=1 t=1 
Ero 
dio = s (۳۹-۱7) 


وبناء على المعادلة ۳۷-٠١‏ من ال متوقع أن JES‏ 00 قريبةٌ من الصفر إذا كانت العملية 
تحت السيطرة مع 00 = © إذا انحازت O‏ عن 00 فان قيمة Qo‏ تنحرف عن منطقة الصفر 
بطريقة ليست عشوائية» بل بطريقة متسقة. 

على سبيل المثال» لاكتشاف أي تغير على ميل نموذج خطي لبيانات تحت السيطرة 
الموضحة في المعادلات ۲۷-۱۲ و۲۸۱1 فان مخطط تحكم الدرجة التراكمية Cuscore‏ 
يقوم هراقبة القيمة: 


۶۰۲ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


Be مارد‎ bul retard خوارزميات‎ 


Qo = > Eto )_ = = De (- ۹" 20-80) Yo. — 006. (€+-41) 


إذا كان اليل 0 للنموذج الخطي 3 تحت السيطرة الذي يتغير من Go‏ فان (Vr - Oot)‏ في 
العادلة ۱7- ٠١‏ يحتوي على d‏ الذي يتم ضربه في قيمة أخرى ل t‏ لجعل Oo‏ يستمر في 
الزيادة (إذا 0 > 60۶ r-‏ أو في النقصان (إذا 0 > Oot‏ - ,) بدلا من التغيير عشوائيا 
قريبا من الصفر. هذا الانطلاق المستمر لقيم Qo‏ من الصفر يتسبب في أن يزيد أو ينقص 
ميل الخط. الذي یربط قيم Oo‏ مع مرور الوقتء من الصفرء الأمر الذي يمكن استخدامه 
كإشارة إلى وجود حالة شاذة. 

لاكتشاف موجة جيبية في عملية تحت السيطرة متوسط T‏ تباينات عشوائية مبينة في 
المعادلات ۲۹-۱٦‏ و۱ ۳۰-۱ تكون إحصائية الدرجة التراكمية Cuscore‏ خطط تحكم 


الدرجة التراكمية هي: 
x eer‏ 
Qo =) to (-52) - 0 1) i al Pp 1‏ 
fet 21‏ 
-o-r sn (25). erat‏ 


إذا كانت الموجة الجيبية موجودة في بء فان (7- (yr‏ في المعادلة ۱7- ۶۱ تحتوي على 
sin(2at /p)‏ والتي يتم ضربها في قيمة أخرى ل sin(2at /p)‏ لجعل Qo‏ تستمر في الزيادة 
(إذا كانت 0 > 7 - بير ) أو في النقصان (إذا كانت0 > 7 - ,۳ ) بدلا من التغيير عشوائيا 
mall dee:‏ 

لاكتشاف تحول ايلتوسط K‏ من Ho‏ كما في مخطط تحكم الجموع التراكمي CUSUM‏ 
الموضح ف المعادلات ٩-۱7‏ ۱۰-۱7 و13- AY‏ يكون لدينا: 
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موذج البيانات تحت السيطرة 


Yt = po oK + ,مع‎ 8 =0 (EX-V) 
نموذج البيانات خارج السيطرة:‎ 


Yt = ملع‎ + OK + Et, 6+ 80 (£-171) 


to  - $o- oK. )66-13(‏ | زمر Yo‏ د 


t=f 


في حالة حدوث تحول المتوسط K‏ من مك فإن (r - Mo)‏ في المعادلة ٤٤ -YI‏ يحتوي 
على K‏ والذي يكون مضروبا في قيمة أخرى KJ‏ لجعل Qo‏ يستمر في الزيادة (إذا كانت 
0<مير (vr‏ أو في النقصان (إذا كانت 0>0 a (yr‏ من التغير عشوائيا حول الصفر. 

حيث إن مخططات تحكم الدرجة التراكمية Cuscore‏ تسمح لنا باكتشاف نموذج معين 

لحالة شاذة إذا كان معطى L‏ نموذجا Lise‏ لنموذج بيانات تحت السيطرة. فان مخططات 
تحكم الدرجة التراكمية تسمح لنا برصد ود مجموعة واسعة من حالات تحت 
السيطرة مقابل حالات خارج السيطرة د بشکل أكثر من مخططات التحکم لشوارتز 
ومخططات تحکم الجموع التراکمي ۷۶ ومخططات تحکم التوسط اطتحرك 
الموزون الشي EWMA‏ 


0-71 منحنی التشغیل التشخيصي لتقييم ومقارنة مخططات التحکم: 
(Receiver Operating Curve -ROC- for Evaluation and Comparison‏ 
of Control Charts)‏ 
تنتج القيم المختلفة lilah‏ حد القرار والمستخدمة في مخططات تحكم degite‏ على 
سبيل Sh!‏ ۳- سيغما في مخطط تحكم Hg X‏ في مخطط تحكم المجموع التراكمي 
۸ و[ في مخطط تحکم امتوسط التحرك الموزون الشي ۸4 معدلات 
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خوار زمیات استكشاف bul,‏ المتطرفة فة 2 ااذ 


مختلفة من ات الخاطئة والزیرات ال الناجحة. لنفترض في ۳۳۹ [١-7‏ ن أي قيمة 
ل 75 < رد هي في الحقيقة حالة شاذة. Shy‏ یکون لدینا ملحوظات البیانات الرصودة 
السبع» وهي امللحوظات أرقام ۲۰۰۱٩ AA ۰۱۲ AY‏ ۰۲۱ و۲۲ لدیها 75 < :× وهي بالفعل 
حالات شاذة. إذا تم تعدیل dad‏ حد القرار إلى قيمة أكبر من أو يساوي الحد الأقصى لقيمة 
CSE 05:‏ لجمیع ملحوظات البیانات الرصودة ال ۰۲۳ على سبیل JÈL‏ 24.5 - 
فإن CSF CST‏ لجمیع ملحوظات البیانات الرصودة ال ۲۳ لا تتجاوز H‏ ومخطط 
تحکم المجموع التراكمي CUSUM‏ ثنائي الجانب لا يعطي إشارة إلى أي ملحوظة بیانات 
مرصودة باعتبارها ملحوظة شاذة. ولا یکون لدينا أي [نذارات خاطئة كما أن عدد الزيارات 
الناجحة صفرء وهذا يعني» أن لدينا معدل الإنذار الخاطئ ۰ ومعدل الزيارة الناجحة he‏ 
إذا تم تعدیل قيمة حد القرار إلى قيمة آصغر من قيمة الحد الأدن لقيمة ]65و 65 
لجميع ملحوظات البيانات المرصودة ال ۲۳ على سبيل المثالء H=-1‏ فان ;05و 6۵ 
لجميع ملحوظات البيانات المرصودة ال ۲۳ تتجاوز H‏ ويقوم مخطط تحكم المجموع 
التراكمي CUSUM‏ ثنائي الجانب بعمل إشارة إلى كل ملحوظة بيانات مرصودة على أنها 
ملحوظة شاذةء مما ينتج ۷ زيارات ناجحة على جميع الملحوظات الشاذة الصحيحة 
(الملحوظات هي أرقام ۰۱۲ ۰۱7 ۸۱۸ ۰۱٩‏ ۸۲۰ ۰۲۱ و۲۲) Wg‏ إتذارا خاطنًاء وهذا يعني أن 
معدل الزيارة الناجحة هو 7۱۰۰ ومعدل الانذار الخاطئ هو ۱۰۰ إذا تم تعدیل dad‏ حد 
القرار إلى 47-0 فان مخطط تحکم ابلجموع التراکمي CUSUM‏ ثنائي الجانب يعطي 
إشارة إلى ملحوظات GUL!‏ الرصودة أرقام ۱٩ ۰۱۸ AT AO ۸۶ AY AV ۰۱۰ AY‏ ۲۰ 
۱ و۲۲ على آنها ملحوظات شاذة مما ينتج إشارات خارج السيطرة عددها ۷ على کل 
اللحوظات السبع الشاذة الحقيقية (معدل الزیارة الناجحة١٠٠*)‏ و۷ (شارات خارج 
السيطرة على ابللحوظات أرقام ۷ AE ۸۱۱ ۱۰ ٩‏ ۱۵ و۲۳ من أصل ۱۱ ملحوظة بیانات 
مرصودة تحت السيطرة (معدل إنذار خاطن (ZEE‏ يسرد الجدول ٤-١١‏ أزواج معدل الانذار 
الخاطئ ومعدل الزيارة الناجحة لقیم أخرى HI‏ ملخطط تحکم الجموع التراکمي 
005014 نناني الجانب في JELI‏ ۰۱-۱۱ 

يعرض منحنی التشغیل التشخيصي Lily (ROC)‏ آزواجا من معدل الزيارة الناجحة 
ومعدل الانذار الخاطی لقيم متنوعة من حد القرار. بعرض الشکل ۶-۱۲ منحنی التشغیل 
التشخيصي bhat (Receiver Operating Curve-ROC)‏ تحکم المجموع التراکمي 


استکشاف البیانات؛ نظریات وخوارزمیات وأمثلة ۵ 


gts CUSUM‏ الجانب في ¢ اللثال ie ۱-5 ٩‏ کان E‏ لدینا سبع م حالات د شاذة حقيقية 
على الملحوظات المرصودة أرقام ۲ ۹ ۲۰ ۱ و وعلى عكس زوج من معدل 
الإنذار الخاطئ ومعدل الزيارة الناجحة لقيمة معينة من حد القرارء فإن منحتی التشغيل 
التشخيصي (ROC)‏ يعطي صورة كاملةٌ عن الأداء من خلال تقنية اكتشاف الوضع الشاذ. 


الجدول (۱۱-) 
أزواج من معدل الإنذار الخاطئ ومعدل الزيارة الناجحة لقيم متنوعة من حد القرار H‏ بلخطط 
تحكم المجموع التراكمي Gls CUSUM‏ الجانب في المثال ١-17‏ 


معدل الإنذار الخاطن معدل الزيارات الناجحة 
Hit Rate False Alarm Rate‏ 
1- 1 1 
0 0.44 1 
0,5 0.38 1 
2.5 0.38 0.86 
5.5 0.38 )0.7 
6.5 0.31 0.71 
8.5 0.25 0.57 
10 0.19 0.57 
11 0.06 0.57 
12 0.06 0..43 
12.5 0 0.43 
18.5 0 0.29 
21 0 0.14 
24.5 0 0 
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خوارز زميات bul aa‏ المتطرفة والشاذة 


الشكل )۱1 i‏ 
منحنى التشغیل التشخيصي (ROC)‏ لخطط تحكم اللجموع التراكمي CUSUM‏ 
Gls‏ الجانب في المثال 1-15 


معدل الزيارات الناجحة (Hit rate)‏ 
> > 
بلا am‏ 


0 02 04 06 08 1 
(False alarm rate) معدل الإنذار الخاطئ‎ 


كلما اقترب منحنى التشغيل التشخيصي (ROC)‏ من أعلى الزاوية اليسرىء التي LF‏ 
معدل الإنذار الخاطئ )+%( ومعدل الزيارة الناجحة »)'٠٠١(‏ للمخططء كلما كان الأداء 
أفضل لمخرجات تقنية اكتشاف الحالات الشاذة. ونظرا لأنه من الصعب تثبیت استخدام 
حدود القرار لتقنيتين مختلفتين لاكتشاف الحالات الشاذة بحيث هكن مقارنة أدائهما بشكل 
ole‏ فان منحنی التشغيل التشخيصي (ROC)‏ يمكن رسمه بيانياً لكل طريقة تقنية في 
نفس المخطط بقارنة منحنيات التشغيل التشخيصية (ROCS)‏ لتقنيتين اثنتين ودراسة أي 
منحنى تشغيل تشخيصي (ROC)‏ يكون أقرب إلى الزاوية العلوية اليسرى للمخطط لتحديد 
أي تقنية تعطي أداء أفضل للاكتشاف. يوضح يي وآخرون (20020 (Ye et al.,‏ استخدام 
منحنيات التشغيل التشخيصية alah (ROCS)‏ أداء اكتشاف الهجوم الإلكتروني (عبر 
الإنترنت) باستخدام تقنتین اثنتين من مخططات التحكم. 
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الجزء الخامين 


Ea and ۳۷۳ الات والتطبیقات‎ 1-7 


يدعم برنامج (www.minitab.com) Minitab‏ مخططات تحکم العملية 
الاحصائية. هکن العثور على تطبیقات لمخططات التحکم أحادية التغبر لجودة التصنیع 
واکتشاف التسلل عبر الانترنت في )3 (Ye etal. (Ye, 2008) (Ye, 2003, Chapter‏ 
«2002a, 2004)‏ و(2003 (Ye and Chen,‏ 


(Exercises) التمارين‎ 


4-11 بالنظر إلى بيانات درجة حرارة الإطلاق (Launch Temperature)‏ وامعلومات 
التالية في المثال 1-17: 
69 = ولا 
K=3.5‏ 
قم clin‏ مخطط تحكم الدرجة التراكمية Cuscore‏ باستخدام المعادلة 56-1١١‏ 
طراقبة درجة حرارة الاطلاق. 


۲۲ ارسم منحنیات التشغیل التشخيصية (ROCS)‏ لخطط تحکم الجموع التراکمي 
۶ في المثال ۰۱-۱۱ ومخطط تحکم التوسط التحرك الموزون الأسي 
4 في المثال ۲-۱۲ ومخطط تحکم الدرجة التراكمية Cuscore‏ في التمرین 
٠7‏ في نفس المخططء ومقارنة أداء تقنیات مخطط التحکم هذه. 

۳-۲ قم بجمع بیانات درجات الحرارة اليومية في الأشهر ال ۱۲ الأخيرة في مدینتك واعتبر 
بیانات درجة الحرارة في کل شهر كعينة البيانات» وقم clin‏ مخطط تحکم X‏ طراقبة 
درجات الحرارة المحلية واکتشاف أي حالات شاذة. 

7 بالنظر إلى مجموعة البیانات نفسها التي تتکون من ۱۲ متوسط درجات Bylo‏ 
شهرية التي تم الحصول علیها من التمرین ۳-۱۱ وقم باستخدام 5و È‏ التي 
تم الحصول علیها من التمرین ۳۰۱۱ لتقدير Ho‏ و6. قم بتعدیل 0.50 = 
و50 H=‏ قم ببناء مخطط تحکم اللجموع التراكمي Gls CUSUM‏ الجانب 
مراقبة بیانات متوسط درجات الحرارة الشهرية واکتشاف أي حالات شاذة. 


a TT A aay‏ هچ چ LL f T FCT BCT‏ بو سس ای مر دم سس مت 
EA‏ استکشاف البیانات؛: نظریات وخوارزمیات وأمثلة 


خوارزمیات استكشاف أفاط المتطرفة والشاذة 


VI aR o a ree 0-14‏ -£ قم slis‏ مخطط تحکم 
الدرجة التراكمية Cuscore‏ طراقبة بیانات متوسط درجات الحرارة الشهرية 
واكتشاف أي حالات شاذة. 


1-41 بالنظر إلى مجموعة البيانات وتقديرات كل من Ho‏ وت في التمرين .»-١7‏ قم بتحديد 
A -0.7‏ و3 L=‏ قم ببناء مخطط تحكم المتوسط المتحرك الموزون GA‏ 
۸4 لراقبة بيانات متوسط درجات الحرارة الشهرية. 

۷-1 کرو التمرين 5-١5‏ ولكن مع 0.3 A=‏ وقم بمقارئة مخططات تحكم المتوسط المتحرك 
الموزون الأسي EWMA‏ في التمارین ۱-۱1 و1 ۰۷-۱ 
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خوارزميات استكشاف آغاط المتطرفة والشاذة 


۷- مخططات التحكم متعددة المتخيرات 
Multivariate Control Charts‏ 


تعمل مخططات التحكم متعددة ابلتغيرات (Multivariate control charts)‏ على 
مراقبة ورصد متغيرات متعددة في وقت واحد لاكتشاف الحالات الشاذة. يصف هذا الفصل 
BB‏ من مخططات التحكم الإحصائية المتعددة التغیرات» وهي: مخططات التحكم 
لهوتلينق (Hotelling’s T? control charts)‏ ومخططات تحكم المتوسط المتحرك 
اموزون EWMA gal‏ متعددة ابلتغيرات {multivariate EWMA control charts)‏ 
ومخططات تحكم مربع كاي (chi-square control charts)‏ كما سنتناول في lio‏ 
الفصل يعض التطبيقات الخاصة مخططات التحكم متعددة المتغيرات مع اطراجع. 


(Hotelling’s 7° Control Charts) 7” مخططات التحكم لهوتلينق‎ ۱-۷ 


لنجعل Xip)‏ ,»)=× ترمز إلى ملحوظة البيانات ال مرصودة رقم ۶ للمتغيرات 
العشوائية» Xiz Xip‏ التي تتبع توزيعا طبيعيا متعدد المتغيرات (انظر إلى دالة الكثافة 
الاحتمالية للتوزيع الطبيعي متعدد المتغيرات في الفصل (VI‏ وبالمتجه المتوسط م ومصفوفة 
التباين- التغاير 2 (انظر إلى تعريف مصفوفة التباين- التغاير في الفصل (VE‏ إذ! كان لدينا 
عينة بیانات بعدد 7 من ملحوظات البيانات الرصودة. فان اطتجه المتوسط للعينة X‏ 
ومصفوةة التباین- التغایر للعينة كد 


21 
x= | 3 | )۱-۱۷( 
Xp 
1 11 
s= ee - م6(‎ - 27, (rv) 
t= 
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الجزه الخامس 


يمكن استخدامها لتقدير قيمة قيمة كل من ن Esp‏ على التوالي. إحصاءة هؤتلينق r‏ لللحوظة 
بيانات مرصودة Hi‏ هي (Chou et al., 1999; Everitt, 1979; Johnson and‏ 
Whichern, 1998; Mason et al., 1995, 1997a,b; Mason and Young,‏ 
Ryan, 1989)‏ ;1999 : 


2 = (x; = £5 (a; — 2), (rv) 


حيث إن “35 هو معكوس المصفوفة S‏ 
تقيس إحصاءة هوتلينق T?‏ المسافة الإحصائية ل :× من X‏ 


الشكل (۱-۱۷) 
توضيح للمسافة الإحصائية المقاسة باستخدام إحصاءة هوتلينق 7 
وحدود التحكم للمخططات التحكم لهوتلينق 7 ومخططات التحكم أحادية المتغير 
حدود التحكم EILAN‏ بواسطة مخططي أحادبي 230M‏ 


Control limits set by two univariate control charts 


7 حدود التحكم المحدّدّة بواسطة هوتلینق‎ 
Control limits set by Hotelling's T? ۳ 
1 


نقطة ببانات تم تجاهتها من قبل مخطلي احباديي hall‏ 
Missed by two univariate cantral charts‏ 


لنفترض أن لدينا 2-0 عند نقطة الأصل من فضاء GLI‏ الأبعاد ل x29.)‏ في الشكل 
۱-۷ في الشكل ۱-۱۷ تقع نقاط البيانات S‏ بنفس المسافة الإحصائية من Z‏ داخل القطع 
الناقص Nis] (ellipse)‏ في الاعتبار التباين والتغاير ل × وی في حين أن كل نقاط البيانات 
كنلا بنفس المسافة الإقليدية تقع في الدائرة. كلما كانت قيمة إحصاءة هوتلينق 77 أكبر 
للحوظة بيانات مرصودة نك كلما كانت المسافة الإحصائية Xj‏ آکر من . 


Eir‏ استکشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات استكشاف أفاط المتطرفة والشاذة 


soy‏ ۳53 ل التحكم لهوتلينق IP‏ إحصاءة IT‏ ?7 في المعادلة ۰۳-۱۷ إذا كانت 
ما Xil‏ تتبع توزیعا طبیعیا متعدد المتغيرات» فان القيمة المحولة لإحصائية هوتلينق 
T‏ 


n(n — p) j 
p(n+1)(n—-1) 


تتبع توزیع F‏ مع P‏ وعدد (n-p)‏ من درجات الحرية (degrees of freedom)‏ 
ولذلك فان قيمة F‏ المصنفة والمجدولة على مستوى محدد من الأهميةء على سبيل JULI‏ 
5 -» ۰ بمكن استخدامها باعتبارها نقطة إنذار أو حد الإشارة (signal threshold)‏ 
إذا كانت القيمة المحولة لإحصاءة هوتلينق 7 طلحوظة بیانات مرصودة :× أكبر من حد 
الإشارة dia‏ فان مخطط تحكم هوتلینق 7 بعطي إشارة إلى أن x;‏ نقطة شاذة. هكن 
بلخطط التحکم لهوتلينق ”7 اكتشاف كل من تحولات المتوسط والارتباطات ALLEL‏ 
asi .(Counter- relationships)‏ الارتباطات المقابلة انحرافات كبيرة عن تركيبة التغاير 
للمتغيرات. 


ويوضح الشكل ۱-۱۷ حدود التحكم المحددة من قبل مخططي تحكم فرديين 2 لكل 
من ۲× X29‏ على التوالي» وحدود التحكم المحددة من قبل مخطط التحكم لهوتلينق ”7 - 
آساس المسافة الاحصائية. نظرا لأن كل من مخططات التحكم الفردية × ل رد ود لا تحتو 
بنية التغاير لكل من ,ا X29‏ فإن ملحوظة البيانات المرصودة التي تنحرف عن بنية ee‏ 
لكل من X29 XI‏ يتم تجاهلها في مخططات التحكم الفردية X‏ ولكن يتم اكتشافها بواسطة 
مخطط التحكم لهوتلينق T?‏ كما هو موضح في الشكل ۱-۱۷. لقد أشار ريان (Ryan,‏ 
)1989 إلى oi‏ مخططات التحكم لهوتلينق 7 هي أكثر حساسيةٌ للارتباطات المقابلة من 
تحولات المتوسطء على سبيل املثال, إذا كان هناك علاقة موجبة بين متغيرين ويحدث تحول 
اللتوسط مع كلا المتغيرين ولكن في نفس الاتجاه الحفاظ على ارتباطهماء فقد لا تكتشف 
مخططات التحكم لهوتلينق T‏ تحول المتوسط )1989 (Ryan,‏ تعتبر مخططات التحكم 
لهوتلينق 77 Lal‏ حساسةً لفرضية التوزيع الطبيعية متعددة ة التغیرات. 
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تحتوي مجموعة بيانات نظام التصنيع في الجدول ۰۱-۱۶ والمنسوخة في الجدول 1-۱۷ 
على متغيري الخاصيةء 7× وو في تسع حالات من أعطال الآلة الواحدة. يتم حساب ايلتجه 
المتوسط للعينة ومصفوفة التباين - التغاير في الفصل ۱۶ ومعطاه فيما يلي. قم clin‏ مخطط 
التحكم لهوتلينق 7 لتحديد ما إذا كانت ملحوظة البيانات المرصودة الأولى 
x=(x7,x9=(1,0)‏ عبارة عن ملاحظة شاذة. 


oO] ۱‏ زف 


$= | 0.2469 -0.1358 

0.2469 0.1358— 
بالنسبة ملحوظة البيانات المرصودة x=(x7,28)=(1,0) JIN‏ نقوم بحساب قيمة إحصاءة 
هوتلينق T?‏ 

5 


0.2469 -0.1358)72|4~5 


5 4 

2 = (xa ~$5) -= j o-- 
T? = (x; — (572 (x — 2) ۳ و‎ ° 1 -01358 024691 |, _ 4 
9 


4 
_[4 — 4]75.8070 3.19397] 9 | _ 

مس[ 3.1939 3- ;|= 
9 


وتکون قيمة T?‏ المحولة: 


pr ep fa a TRI IK I R 
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خوارزمیات اف bul‏ المتطرفة anally‏ 


nn- a 0906-2 
EOE wiii 


وتكون قيمة F‏ اللجدولة ل 0.05- © مع ۲ ولا من درجات الحرية تساوي ENVE‏ والتي 
يتم استخدامها كحد الإشارة. وحيث إن ۰,۰۵۰۲ £,VE>‏ فان مخطط التحكم لهوتلينق T?‏ 
لا يعطي إشارة أن x=(x7,x9)=(1,0)‏ عبارة عن ملاحظة شاذة. 


الجدول (۱-۱۷) 
مجموعة البیانات لاکتشاف أعطال النظام مع اثنين من متغیرات الجودة Xag X7‏ 
رقم الحالة - Instance‏ 
4Y)‏ المعطلة - (Faulty Machine‏ 


XE X7 

0 1 1 (M1) 
1 0 2(M2) 
1 1 3(M3) 
I 0 4(M4) 
0 1 5(M5) 
0 ۱ 6(M6) 
0 ۱ 1M7) 
1 0 8(M8) 
0 0 9(M9) 


۲-۷ مخططات تحكم المتوسط المتحرك الموزون الأسي متعددة المتغيرات 
(Multivariate EWMA Control Charts):‏ 
إن مخططات التحكم لهوتلينق 7 عبارة عن نسخة متعددة المتغيرات لخططات 
التحكم XI‏ أحادية المتغير في الفصل 1. وَتُحدٌ مخططات تحكم المتوسط المتحرك الموزون 
الأسي ۸4 متعددة المتغيرات عبارة عن نسخة من مخطط تحكم المتوسط المتحرك 
الوزون الأمي EWMA‏ متعددة المتغيرات 3 الفصل ۱۱. . يقوم مخطط تحكم امطتوسط 


ا شاف البيانات؛ نظريات وخوارزميات وأمثلة gto‏ 


الجزء e‏ الخامس 


ابلتحرك ner‏ الأدي U EWMA A‏ المتعدد ان ‘Ble‏ الإحصاءة الت التالية ,2003 (Ye,‏ 


: Chapter 4) 
12 "25; (۱۷-ع)‎ 

Of حيث‎ 
zi = Ax; + )1- 2302-1 )0-17( 


(0,1) عبارة عن وزن في النطاق‎ A 


or x (1-1¥)‏ طح و2 


A ۱ 
s - جم‎ ]1- 0-5 ۳0 


وک هي مصفوفة تباین- تغاير العينة للمتغير × 


۳-۷ مخططات تحکم مربع كاي (Chi-Square Control Charts)‏ 

حيث إن مخططات التحکم لهوتلینق 77 ومخططات تحکم التوسط التحرك الموزون 
الأسي EWMA‏ متعددة المتغيرات تتطلب حساب معکوس مصفوفة التباین- التغایر» فإن 
مخططات التحکم هذه ليست قابلة للقیاس لعدد كبير من المتغيرات. إن وجود متغیرات 
مترابطة خطیاً یخلق صعوبة في الحصول على معکوس مصفوفة التباین- التغایر. ولعالجة 
هذه المشاکل, تم تطویر مخططات تحکم مربع كاي .)2006 ,20028 p95 (Ye et al.,‏ 
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خوار زميات bul inte‏ المنطرة فة والشاذة 


مخطط ری مربع jase ee‏ إحصاءة مربع بع كاي طللحوظة بيانات مرصودة (Xli,‏ = 
Xip)‏ على النحو التالي: 


p 
2 
X;: — X: 
2 = > ( se i) f )۸-۱۷( 
X; 
ja 


الخاصية, ۵7 xg‏ في تسع حالات من أعطال UM‏ الأحادية. يتم حساب doch!‏ المتوسط 
للعينة في الفصل ١6‏ ومعطى هنا: 


۱ 
Jl 
RI RI 
D یه‎ 
ابا‎ 
۱ 
في‎ | oO] كن‎ 


وتکون dolar!‏ مربع كاي ملحوظة البیانات المرصودة الأولى في الجدول ۸-۱۷ )0 ,1( = 
x = (X79 X8)‏ 


5 2 
kı = 2)? _ Gay رد‎ | ro توت‎ _ (1-3) 


X2 = = 
x) Xx Xa 


5 
ja? 5‏ 
إذا كانت اللتغيرات التي عددها p‏ مستقلة وكانت قيمة p‏ كبيرة فان إحصاءة مربع كاي 
تتبع توزیعا طبيعيا مبني على أساس نظرية النهاية المركزية. إذا كان لدينا عينة من 
ملحوظات البیانات المرصودة تحت السيطرة (in- control)‏ فإنه هکن حساب متوسط 

العينة 262 وتباين العينة Syz‏ لاحصاءة مربع كاي واستخدامها لتحديد حدود التحكم: 


UCL = X? + Lsyz )٩-۱۷( 
LCL = X? - Lsy2. )۱۰-۱۷( 
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إذا جعلنا 3= كول دكا ied ee ue‏ إذا كانت قيمة إحصاءة مربع كاي 
للحوظة بيانات مرصودة معينة تقع خارج ] LCL. UCL‏ ل فإن مخطط تحكم مربع كاي 
يشير إلى حالة شاذة. 


في العمل الذي أجراه يي وآخرون )2006 (Ye et al.,‏ تتم مقارنة مخططات تحكم 
مربع كاي مع مخططات التحكم لهوتلينق 77 في أدائهم لاكتشاف تحولات المتوسط 
والارتباطات القابلة لأربعة أنواع من البيانات: )١(‏ بيانات مع متغيرات مترابطة 
(Correlated)‏ وموزعة بشكل طبيعي. (۲) Oblo‏ مع متغيرات غير مترابطة وموزعة 
بشكل طبيعيء (۳) بيانات مع متغيرات مترابطة ذاتيا ga)‏ نفسها) وموزعة بشكل طبيعي» 
و(٤)‏ متغيرات موزعة بشكل غير طبيعي وبدون ارتباط مع متغيرات أخرى أو ارتباط مع 
نفسها. تُظهر نتائج الاختبارات أن أداء مخططات تحكم مربع كاي كان هو الأفضل أو ينفس 
جودة أداء مخططات التحكم لهوتلينق 77 للبيانات من الأنواع ۲ و۳ وع. كان أداء مخططات 
التحكم لهوتلينق 77 أفضل من مخططات تحكم مربع كاي للبيانات من النوع ١‏ فقط. 
oS‏ بالنسبة للبيانات من النوع A‏ يمكننا استخدام تقنيات مثل تحليل المكون الرئيسي 
(principal component analysis)‏ ف الفصل ۱۶ للحصول على المكونات الرئيسية. 
ثم يمكن استخدام مخطط تحكم مربع كاي طراقبة المكونات الرئيسية التي هي عبارة عن 
متغيرات مستقلة. 


۶-۷ التطبيقات (Applications)‏ 
هكن ایجاد تطبیقات لمخططات التحکم لهوتلینق T?‏ ومخططات تحكم مربع كاي 
لاکتشاف الهجوم الالکترونی/عبر الانترنت لرصد بیانات الحاسب والشبکات واکتشاف 
الهجمات الالكترونية کحالات شاذة في العمل الذي آجراه يي وزملاؤه (Emran and Ye,‏ 
Ye, 2003, Chapter 4; Ye, 2008; Ye and Chen, 2001; Ye et al.,‏ ;2002 
)2006 ,2004 ,2003 ,2001 وهناك أيضًا تطبيقات لخططات تحكم متعدد المتغيرات 

في التصنيع )4 (Ye, 2003, Chapter‏ وغيرها من المجالات. 
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خوار زميات استكشاف bul‏ المتطرفة والشاذة 


التمار ين (Exercises)‏ 


۱-۷ قم باستخدام مجموعة البيانات 4 و X69‏ في الجدول ۱-۸ لتقدير امعلمات مخطط 
التحكم لهوتلينق 7 ثم قم clin‏ مخطط التحكم لهوتلينق T?‏ مع 0.05= a‏ 
مجموعة البيانات X4‏ وك وید في الجدول 5-6 لرصد البيانات واكتشاف أي حالات 
شاذة. 


۲۷ قم باستخدام مجموعة البيانات ۵:4 X5‏ وما في الجدول ۱-۸ لتقدير المعلمات لخطط 


X5 4‏ و36 في الجدول 5-6 لرصد البيانات واكتشاف أي حالات شاذة. 


7-١١‏ كرر المثال ۱-۱۷ طلحوظات البيانات المرصودة الثانية. 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة 1۹ 


الجزء السادس 
خوارزميات استکشاف الأماط الزمنية والتسلسلية 
Algorithms for Mining Sequential and‏ 
Temporal Patterns‏ 


خوار زمیات اا uy bui‏ هنية 4 والتساملية 


۸- تحلیل E‏ الذاق والسلاسل الزمنية 


Autocorrelation and Time Series Analysis 


تتكون بيانات سلاسل الزمن (Time Series data)‏ من مشاهدات gl)‏ ملحوظات) 
لبيانات يتم رصدها على مدى زمني معين. فإذا أصبحت ملحوظات البيانات المرصودة 
مترابطة مع بعضها على مدی زمني فإنه هكن القول إن بيانات السلاسل الزمنية مترابطة 
ذاتيا (autocorrelated)‏ تم تقديم تحليل سلاسل الزمن بواسطة بوكس وجنكينز سنة 
(Box and Jenkins, 1976) 1‏ لنمذجة وتحليل بيانات سلاسل الزمن ذات الارتباط 
الذاتي. وقد تم تطبيق تحليل سلاسل الزمن de‏ بيانات حقيقية في العديد من الجالات» ها 
في ذلك أسعار الأسهم (على سبيل JELI‏ مؤشر 500 P‏ & 5), وأجرة تذاكر الطيران» وحجم 
القوى العاملة. وبيانات البطالة» وأسعار 8 الطبيعي )2000 (Yaffee and McGee,‏ 
يوجد بيانات سلاسل زمنية ساكنة (stationary)‏ 5 ساكنة (nonstationary)‏ والتي 
تتطلب إجراءات مختلفة للاستدلال الإحصائي. في هذا الفصلء يتم تعريف الارتباط الذاتي 
(autocorrelation)‏ ويتم توضيح عدة أنواع من السلاسل الزمنية الساكنة وغير الساكنة. 
ويتم توصيف gli‏ المتوسط المتحرك ذاتي الانحدار ) Autoregressive and Moving‏ 
(Average - ARMA‏ الخاصة ببيانات السلاسل الساكنة. ويتم استعراض عملية تحويل 
بيانات السلاسل غير الساكنة إلى بيانات سلاسل ساكنة, جنبا إلى جنب مع نماذج المتوسط 
المتحرك. املتکاملت وذاتية الاتحدار Autoregressive, Integrated, Moving)‏ 
(Average - ARIMA‏ وترد قائمة من حزم البرمجيات التي تدعم تحليل السلاسل الزمنية. 
يتم تقديم بعض التطبيقات الخاصة بتحلیل السلاسل الزمنية مع المراجع الخاصة بها. 


۱-۸ الارتباط الذاتي :(Autocorrelation)‏ 


تقدم المعادلة ۷-۱۶ في الفصل ۱۶ معامل الارتباط (coefficient correlation)‏ 
طتغبرین Xi‏ ورن 


اذك 
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الجزء السادس 


AR ATEN :ان‎ Bi I PULTE LN Le RSENS REA Te AB EE 


حيث تعطي العادلتان ۶-۱۶ -Yta‏ 


of = ) (x; — u) pi (xi) 
ali vatuese 
of Xi 


(x; — ales = uj )pi( xi, x;).‏ > > = رز 
all valuese all vatuese‏ 
of xi of x;‏ 


]13 كان لدينا متغير × وعينة من بيانات السلاسل الزمنية الخاصة بالمتغير ولتكن ,۵ 
بحيث ۶ ,... ,] = فاننا نحصل على معامل دالة الارتباط الذاتي بفارق زمني (the k‏ 
lag-k autocorrelation function [AFC] coefficient)‏ عن طر يق استبدال 
المتغيرين :ا وزد في املعادلات المذكورة أعلاه بالمتغيرين Xi‏ وه وهما ملاحظتا بيانات 
مرصودتان بفارق زمني ik‏ 


ACF(k) = Pk = Bien را‎ )۱-۱۸( 


حيث 7 هو متوسط العينة. إذا كانت بیانات السلاسل الزمنية مستقلةً إحصائيا عند فارق 
الزمن k‏ (/-108). یکون pe‏ بقيمة صفر. إذا تغير :2 ويب من المتوسط Z‏ بنفس الاتجاه 
(علی سبیل JEBI‏ کلاهما یزیدان من × )» تکون ۸م موجبة. إذا تغبرت ,× و( من التوسط 
× باتجاه معاکس (علی سبیل lth!‏ تزید واحدة وتنقص الأخرى من التوسط AX‏ تکون Pk‏ 
سالبة. 

يقوم معامل دالة الارتباط الذاتي الجزي بفارق زمني Partial Autocorrelation) k‏ 
(Function - PACF‏ بقياس الارتباط GUI‏ للفارق الزمني k‏ والذي لا ibg‏ به في 
الاعتبار من قبل الارتباطات الذاتية للفوارق الزمنية من / إلى 1-. وتوضح المحادلة التالية 
دالة الارتباط الذاتي الجزني (PACF)‏ للفارق الزمني (lag-1) d‏ وللفارق الزمني 2 lag-)‏ 
Í (Yaffee and McGee, 2000) 2‏ 
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خوار زميات استكشاف bud‏ الزمنية والتسلسلية 


PACF(1) = رم‎ )۲-۱۸( 


PACK(2) = مه‎ 
1 


:(Stationarity and Nonstationarity) السكون واللاسكون‎ ۲-۸ 


Sole‏ ما يشير السكون إلى سكون ضعيف يتطلب أن لا يتغير المتوسط (mean)‏ والتباين 
(variance)‏ الخاص ببيانات السلاسل الزمنية مع مرور الوقت. تكون السلسلة الزمنية 
ساكنة بشكل دقيق إذا كان التغاير الذاتي Ore‏ لا يتغير بمرور الوقت d‏ ولكن يعتمد 
فقط على العدد k‏ الذي هثل الفارق الزمني» بالإضافة إلى المتوسط الثابت والتباين الثابت. 
على سبيل ol JELI‏ سلسلة قوسشيان الزمنية (Gaussian time series)‏ التي لها توزيع 
طبيعي متعدد المتغيرات هي عبارة عن سلسلة ساكنة بشكل دقيق وصارم لأن امتوسط 
والتباین. والتغاير الذاتي للسلسلة (autocovariance)‏ لا تتغير مع مرور الوقت. 
وئستخدم نماذج المتوسط املتحرك Giò‏ الاتحدار (ARMA)‏ لنمذجة السلاسل الزمنية 
الساكنة. 


قد يكون السبب في اللاسكون (Nonstationarity)‏ هو: 


الحالات المتطرفة bil) (outliers)‏ الوصف في الفصل 1( 

السير العشواني (random walk)‏ والذي فيه تنحرف كل ملحوظة من ملحوظات 
البيانات المرصودة بشكل عشوائي من ملحوظة البيانات المرصودة السابقة دون 
الرجوع إلى المتوسط. 

الاتجاه ا محدد Ac) (deterministic oe)‏ سبيل Sth)‏ اتجاه خطي - linear‏ 
-trend‏ له قيم تتغير مع مرور الوقت معدل Cob‏ ومستمر). 


© التباين اطتغير. 


تكرار hè‏ بیانات معين بشكل دوري (دورة نمط بیانات)» lg‏ 3 ذلك الدورات 
الموسمية بشكل سنوي. 
أسباب أخرى تجعل المتوسط أو التباين للسلسلة الزمنية تتغير بمرور الزمن. 


استكشاف البيانات: GL bi‏ وخوار زميات وأمثلة tro‏ 


الجزه السادس 


يجب أن يتم تحويل السلسلة غير الساكنة إلى سلسلة ساكنة من أجل بناء نموذج التوسط 
ابلتحرك ذا الانحدار (Autoregressive and Moving Average - ARMA)‏ 


۳-۸ نماذج المتوسط المتحرك HS‏ الانحدار الخاصة ببيانات السلاسل الساكنة: 
(ARMA Models of Stationary Data)‏ 
يتم تطبيق نماذج التوسط ايلتحرك ذا الانحدار Autoregressive and Moving)‏ 
(Average - ARMA‏ على بيانات السلاسل الزمنية ذات السكون الضعيف. يقوم نموذج 
الانحدار الذاي (Auto Regressive-AR)‏ ذو الدرجة ARM) p‏ بوصف السلسلة 
الزمنية التي تكون فيها ملحوظة البيانات المرصودة الحالية بلتغیر دهي دالة لعدد p‏ من 
ملحوظاتها المرصودة السابقة. وخطأ عشوائي: 


Xe = P1Xt-1 +۲۰۰۰ ع + و‎ (£-NA) 


على سبيل JEBI‏ يتم نمذجة بيانات السلاسل الزمنية ملدی استحسان الأداء الوظيفي للرئيس 
استناذا إلى استطلاع غالوب کنموذج انحدار GIS‏ من الدرجة (P=1)‏ وتُكتب AR(1)‏ 
:(Yaffee and McGee, 2000).‏ 


Xe = 4۱2-1 + ۰ )0-14( 


يوضح الجدول ۱-۱۸ سلسلة زمنية لنموذج انحدار AR(L) Giò‏ حيث 0.09 = Py‏ 
و3 = x0‏ وخطأ عشوائي ,© ذو متوسط يساوي صفراً وانحراف معياري يساوي واحداً. 

يوضح الشكل ۱-۱۸ رسما Lily‏ لسلسلة زمنية بنموذج انحدار GIS‏ (4۸)1 كما نرى 
في الشكل ۱-۱۸ فان تأثير قيمة × AI‏ 3 = ۵:0 ينعدم بسرعة. يقوم نموذج المتوسط 
املتحرك (Moving Average- MA)‏ من الدرجة MAG) q‏ بوصف سلسلة زمنية والتي 
فيها ملحوظة البيانات المرصودة الحالية pith‏ معين عبارة عن Sb‏ خطأ عشوائي في الوقت 
الحالي والأخطاء العشوائية لعدد g‏ من نقاط زمنية سابقة: 


۳۰ سس‎ FV A, tt CA aR سو سحب سسب م م‎ i_i TIS a 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ enn 


خوارزمیات اب استکشاف الأماط jajil‏ منية LoLa‏ 


Og et-q: (1-1۸)‏ جحو يت نجوه لم816 5-5 ع6 = Xe‏ 


الجدول (۱-۱۸) 
سلسلة زمنية لنموذج الانحدار الذاتي (۸۸)1 حیث 0.09 = 3 = xo‏ وخطأ عشواني :€ 


xX وت‎ 1 
2.866 0.166 1 
2.157 —0.422 2 
0.353 -1.589 3 
0.741 0.424 4 
0.962 0.295 5 
0.579 —0.287 6 
0.381 —0.140 7 
1.328 0.985 8 
0.825 -0.370 9 
0.078 ~0.665 10 

الشكل ۱-۱۸ 


بيانات سلسلة زمنية يتم تولیدها باستخدام نموذج الانحدار الذاتي AR(L)‏ حيث 0.09 Py=‏ و xo‏ 
3 = وخطأ عشواني ,6 
35 
3 
25 
2 
1.5 
1 
05 


استکشاف البیانات: نظریات وخوارن ميات وأمثلة EV‏ 


الجزه السو 


على سبيل JÈU‏ يتم نمذجة بيانات السلسلة الزمنية الخاصة بتتبع المصابين بمرض Gls‏ 
كنسبة من مجموعة سكانية مصابة بمرض بشكل عام (مثلء الإيدز) ee‏ متوسط متحرك» 
(Yaffee and McGee, 2000) MV(1)‏ 


Or = 016-۰ )۷-۱۸(‏ = م2 


يقدم الجدول ۲-۱۸ سلسلة زمنية لنموذج التوسط المتحرك MV(1)‏ حیث 09 = 0 
lbs‏ عشوائيا ,© متوسط يساوى صفراء وانحراقًا معیاریا يساوي واحذا. یوضح الشکل “VA‏ 
۳ زسها بيانيا لسلسلة زمنية بنموذج المتوسط اللتحرك MVI)‏ كما نرى في الشكل ۲-۱۸ 
فان قيمة (/0.9-) في المعادلة ۷-۱۸ تميل إلى أخذ :× إلي الاتجاه اللعاكس من ۵5-۸ مما 
یجعل قيم Xt‏ تتأرجح. 

يقوم نموذج المتوسط المتحرك ذاتي الانحدار ARMA‏ ونموذج المتوسط المتحرك ذاتي 
الانحدار ARMA(p,g)‏ بوصف سلسلة زمنية بخصائص المتوسط المتحرك» وذاتي الانحدار: 


(۸-۱۸) .م6 9 موم هو کت 92۸-1 ¬ & + Xe = 4013-1 ++ PpXt-p‏ 


يرمز الرمز (0 ARMA (p,‏ إلى نموذج الانحدار الذاتي AR(p)‏ والرمز (0,9) ARMA‏ 
إلى نموذج المتوسط ابلتحرك MAG)‏ بشکل عام یکون لسلسلة الزمن السلسة 
(smooth time series)‏ معاملات (coefficients)‏ انحدار ذاتي Ale AR‏ ومعاملات 
متوسط متحرك MA‏ منخفضة. ويكون للسلسلة الزمنية المتأثرة بالأخطاء العشوائية 
معاملات متوسط متحرك MA‏ عالية. ومعاملات انحدار AR GIS‏ منخفضة. 


EYA‏ استكشاف البيانات: نظريات وخوار زميات وأمثلة 


خوار زميات استكشاف ف الأماط الزمنية ة والتسلسلية 


الجدول (۲-۱۸) 
سلسلة زمنية لنموذج MAIC)‏ مع 0.9 = ,8 وخطأ عشواني ,© 
Xt ĉr 1‏ 
0 0.649 
1 0.16 0.418 
2 0,422 0.046- 
3 1.589- 1.548- 
4 0424 1.87 
5 265 1.340- 
6 0.287- 0.919 
7 0.140- 0.967- 
8 0985 ۱.856 
و 0370- 2.040- 
10 0665 1.171 
الشكل (۲-۱۸) 
بيانات سلسلة زمنية تم توليدها باستخدام نموذج MAL)‏ مع 0.9 = ,0 وخطأ عشواني ,© 
25 
2 
1.5 
1 
0.5 
=z 0‏ 


استكشاف البيانات: نظريات وخوارزميات وأمثلة Eva‏ 


الجزء السادس 


4ع خصائص دالة الارتباط الذاتي Blog‏ الارتباط الذاتي الجزة J‏ لنماذج المتوسط 
Joh!‏ ذاق الانحدار 
(ACF and PACF Characteristics of ARMA Models):‏ 


تقوم دالة الارتباط الذاي (Autocorrelation Function - ACF)‏ ودالة الارتباط 
الذاقي الجزئي (Partial Autocorrelation Function - PACF)‏ التي تم وصفها في 
الجزء ۱-۱۸ بتوفير الأدوات التحليلية لكشف وتحديد درجة الانحدار الذاتي (AR)‏ أو درجة 
المتوسط المتحرك (MA)‏ في نموذج المتوسط المتحرك GIS‏ الانحدار (ARMA)‏ لسلسلة 
زمنية. فيما sh‏ يتم توضيح خصائص كل من PACF ACF‏ لبيانات السلاسل الزمنية التي 
تم توليدها بواسطة نماذج الانحدار الذاتي AR‏ والمتوسط اللتحرك MA‏ وامتوسط المتحرك 
ذاتي الانحدار ARMA‏ 


بالنسبة لسلسلة زمنية بانحدار ذاتي من الدرجة ۱ (4۸)1: 


Xt = ۲۱2 + €, 


ACF (k) (Yaffee and McGee, 2000) الارتباط الذاٿق‎ Bis تكون‎ 
ACF(k) = pË. (1-1۸) 


إذا كان 1 > AR(1) òp by‏ یکون ساکنا وبتراجع ol‏ في القيمة المطلقة ل 
ACF‏ مع مرور الوقت لأن ACF (k)‏ يتناقص بمقدار k‏ ويتلاثى 3 النهاية. إذا كان > رم 
۵ فان ACF)‏ يكون موجبا. إذا كان 0 > ل فان ACF)‏ تتأرجح بحيث تكون 
سالبة بالنسبة ل 1 > k‏ وموجبة بالنسبة ل 2 = k‏ وسالبة بالنسبة ل 3  -‏ وموجبة 
بالنسبة ل 4 = Lye gles k‏ إذا كان 1 < Dy‏ فإن (4۸)1 يكون غير ساكن. بالنسبة 
لسلسلة زمنية ساكنة بانحدار GIS‏ من الدرجة ¥ AR(2)‏ 


Xt = و2‎ + 9222 + Er, 


er-‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


J>‏ زميات d‏ استكشاف ف BUM‏ الزمنية والتسلسلية 


فان 4660 تكون موجبة بتراجع أمي. في القيمة المطلقة ل لمع مرور الوقت. إذا 
كان 0 < رط و 0 < رط وتتأرجح قيمة ACF(K)‏ بتراجع أسي في القيمة الطلقة ل 
شمع مرور الوقت إذا كان 0 > ره و 0 < d‏ 

تنتهی دالة الارتباط الذاتي الجزي PACF)‏ لسلسلة انحدار GIS‏ (م)4۸بإكمال 
الفارق الزمني P‏ وتصبح صفرا بعد فارق زمني p‏ بالنسبة ل AR(1)‏ فان )1( PACF‏ 
تکون موجبة إذا كان 0 > ,ره أو سالبة إذا كان 0 > Dy‏ وتکون PACF(k)‏ ل 2 < k‏ 
مساوية للصفر. وبالنسية ل AR(2)‏ فان PACF(2)9 PACF(D)‏ تکون موجبة ]13 كان 
0 > وهو 0 < A1‏ وتکون PACF(L)‏ سالبة PACF(2)9‏ موجبة إذا كان > و 
0 و 0 > d‏ وتکون PACF)‏ ل 3 < k‏ مساويةٌ للصفر. وبالتالء فان PACF‏ تحدد 
درجة سلسلة الزمن ذاتية الانحدار. i‏ 


بالنسبة للسلسلة الزمنية ذات MA(I)‏ 
رو-م6: 6-0 = Xe‏ 


فإن ACF(\)‏ لا تكون صفرا كما يلي )2000 (Yaffee and McGee,‏ 


ACF(1) = (1۰-1۸) 


Tre?’ 


وتكون ACF)‏ صفراً بالنسبة ل 1 < . باملثل للسلسلة الزمنية ذات )2( MA‏ 
ACF(1) o%‏ و(401)2 تكون Ate‏ و(4»۳)2 تساوي صفراً ل 2 > ag‏ وبالنسبة ل 
MA(q)‏ يكون لدينا )200 :(Yaffee and McGee,‏ 


ACF(k) #0 ifk<q 
ACF(k) = 0 ifk > q 


استکشاف البیانات: نظریات وخوارزمیات وأمثلة ۶:۳۱ 


الجن السادس 


خلافاً لسلسلة الزمن ذاتية الانحدار التي تنخفض دالة الارتباط الذاتي ACF‏ الخاصة 
بها بشكل gl‏ بمرور الوقت» فإن السلسلة الزمنية للمتوسط المتحرك يكون لها ذاكرة 
محدودة لأن الارتباط الذاتي ل MA(G)‏ ينتهي بإكمال الفارق الزمني g‏ وبالتالي» تقوم دالة 
الارتباط ACF GI‏ بتحديد درجة السلسلة الزمنية للمتوسط المتحرك. والسلسلة الزمنية 
للمتوسط المتحرك يكون لها دالة PACF‏ والتي ينخفض حجمها بشكل أسي مع مرور 
الوقت. بالنسبة ل MA(I)‏ فإن PACF(K)‏ تكون سالبة إذا كان 0 <0 وتتأرجح 
PACF(K)‏ بين القيم اطوجبة والسالبة وبتراجع سي في حجم PACF(K)‏ مع مرور الوقت. 
بالنسبة(2) 44 فان PACF(K)‏ تكون سالبة وبتراجع آبی في حجم PACF‏ مع مرور 
الوقت إذا كان 0 >0 و0 <62, وتتأرجح قيمة ACF)‏ بتراجع gl‏ في القيمة 
الطلقة ل ACF‏ مرور الوقت إذا كان 0> :9 03< ج0. 

يتم الجمع بين الخصائص اللذكورة ÉT‏ والخاصة بالسلاسل الزمنية ذات المتوسط المتحرك 
وذاتية الانحدار في سلسلة زمنية مختلطة بنماذج ARMA(p, q)‏ حيث 0 > م و0 > q‏ 
فعلى سبيل اطثال. بالنسبة ل ARMA(I,1)‏ مع 0 > رض و 0 > A‏ تنخفض دالة 
الارتباط الذاتي ACF‏ بشكل اى بمرور الوقت» وتتأرجح دالة الارتباط الذاتي الجزني PACF‏ 
بتراجع اي بمرور الوقت. ٠‏ 

هكن تقدير العلمات في نموذج المتوسط التحرك ذاتي الانحدار ARMA‏ من äus‏ 
بيانات السلسلة الزمنية باستخدام طريقة الربعات الصغرى غير المشروطة 
(unconditional least-squares method)‏ طريقة المربعات الصغری الشروطة أو 
طريقة الإمكان الأکبر )2000 (Yaffee and McGee,‏ والتي يتم دعمها في البرامج 
الإحصائية, مثل: SPSS 9SAS (www.sas.com)‏ 
.(www.ibm.com/software/analytics/spss/)‏ 
۸ تحويل بيانات السلسلة غير الساكنة ونماذج المتوسط المتحرك ابلتکامل ذاتي الانحدار 

(Transformations of Nonstationary Series Data and ARIMA Models): 

بالنسبة للسلسلة غير الساكنة الناجمة عن القيم المتطرفة والشاذة والسير العشوانی, 
والاتجاه ا محدد. والتباين المتغيرء والتكرار الدوري والموسميء والتي تم وصفها في الجزء -VA‏ 
۲ يتم فیما يلي وصف الطرق الخاصة بتحويل تلك السلسلة غير الساكنة إلى سلسلة ساكنة. 


اع سس زم ای رز مسب 177 gpa OTTO AA Tn el‏ و 
ery‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات استكشاف الأماط الزمنية والتسلسلية 


عندما يتم الکشف عن القیم التطرفة والشاذة في سلسلة زمنيةء فإنه من الممكن أن يتم 
إزالتها واستبدالها, وذلك باستخدام متوسط هذه السلسلة. وتنحرف کل ملحوظة بیانات 
عشواثيا في السير العشواني من ملحوظة البیانات السابقة دون الرجوع إلى المتوسط. 
السائقون الخمورون ومعدلات املوالید عبارة عن أسئلة تمثل سلوك السیر العشوائي 
and McGee, 2000)‏ ۲۵/۵2 ). يتم تطبیق يتم تطبیق عملية الطرح على سلسلة السیر 
العشواني على النحو التالي: 


Et = Xt = Xt-1 )۱۱-۱۸( 


للحصول على سلسلة ساكنة من المتبقي er‏ والتي يتم بعد ذلك تمذجتها کنموذج 
متوسط متحرك ذاني الانحدار ARMA‏ عکن إزالة اتجاه محدد معين مثل الاتجاه الخطي 
التالي: 


=at+bt+e,, )۱۲-۱۸(‏ م2 


عن طريق dole]‏ التوجیه .(de-trending)‏ یتضمن إعادة التوجیه ولا القیام clin‏ 
نموذج انحدار للتعرف على الاتجاه (علی سبیل المثاله نموذج خطي oles‏ خطي, أو نموذج 
متعدد الحدود للاتجاه ذو الدرجة الأعلى) ومن ثم الحصول على السلسلة الساكتة من 
البواقي ,© من خلال |جراء عملية الطرح بين القيمة الرصودة والقيمة التوقعة من موذج 
الانحدار. بالنسبة Gola‏ المتغير (changing variance)‏ الذي له تباين سلسلة زمنية 
ممتدة أو منکمشة أو متذبذبة» مع مرور الوقت» فإنه من الممكن |جراء التحویل باستخدام 
اللوغاریتم الطبيعي (natural log)‏ أو التحویل باستخدام الرفع للقوة (على سبیل المثالء 
7 بیع والجذر التربيعي) لتحقیق الاستقرار في التباین )2000 (Yaffee and McGee,‏ 

تنتمي التحويلات اللوغاريتمية الطبيعية, أو تحويلات القوة إلى عائلة تحويلات بوکس- 

كوكس (Box-Cox)‏ التي تعر رف بأنها )2000 (Yaffee and McGee,‏ 


_ (xe + 02-1 ۳ 
الل لي‎ ifO<A<1 (Y-A) 


Ye < ۱0۲ +c ifA=1 


استكشاف البيانات: نظريات وخوارزميات وأمثلة ery‏ 


بد السلسلة الزمنية الأصلية 
yr‏ السلسلة الزمنية المتحولة 
© ثابت 


(shape parameter) معلمة شکل‎ A 


بالنسبة للسلسلة الزمنية المكونة من تکرارات دورية (cycles)‏ والتي یکون بعضها موسمیا 
بدورة سنويةء يمكن إجراء عملية طرح دورية أو موسمية على النحو التالي: 


6, = Xt — Xr-d (۱6-1۸) 


حيث إن 4 هو عدد مرات الفوارق الزمنية الممتدة عبر الدورة. يمكن إضافة عملية الطرح 
العادية وعملية الطرح الدورية/ الموسمية إلى نموذج guad ARMA‏ نموذج المتوسط 
التحرك. التکامل» وذاتي الانحدار (Autoregressive, Integrated, Moving‏ 
Average - ARIMA)‏ حيث تشير 1 إلى الكلمة متكامل :Untegrated)‏ 
(۱۵-۱۸) تي = *** = OpXt-p + Cp = Oy Xp‏ + + دوه = و — Xe‏ 

(Software and Applications) البرمجيات والتطییقات‎ 5-4 

يتم دعم تحلیل السلاسل الزمنية degame‏ من الحزم البرمجية مثل SAS‏ 
SPSS (www.ibm.com/software/analytics/spss/)y «{www.sas.com)‏ 
MATLAB (www.mathworks.com)s‏ في العمل الذي قامت به يي وزملاؤها (Ye,‏ 
Chapter 10 and 17)‏ ,2008 يتم تطبيق تحليل السلاسل الزمنية لكشف وتحديد 
خصائص الارتباط الذاتي للاستخدام العادي وأنشطة الهجوم عبر الإنترنت باستخدام بيانات 
الحاسوب والشبكات. يتم بناء نماذج السلاسل الزمنية على أساس هذه الخصائص ويتم 
استخدامها في مخططات تحكم الدرجة التراكمية (cuscore)‏ كما هو موضح في الفصل V1‏ 
للكشف عن وجود هجمات إلكترونية. يمكن العثور على التطبيقات الخاصة بتحليل السلاسل 
الزمنية بغرض التتبؤ في يافي وماغي )2000 (Yaffee and McGee,‏ 


ere‏ استكشاف البيانات: نظريات وخوارزمیات وأمثلة 


خوارزميات اه استكشاف bus)‏ الزمنية والتسلسلية 


التمارين (Exercises)‏ 
۱-۸ قم ببناء بيانات سلاسل زمنية باستخدام نموذج )1 ARMA(I,‏ 


۲-۸ بالنسبة لبيانات السلاسل الزمنية في الجدول ۱-۱۸ قم بحساب ACF(2) ACF(1)‏ 
PACF(2)3 PACF(I) ACF(3)‏ 


۳-۸ بالنسبة لبيانات السلاسل الزمنية في الجدول ۲-۱۸ قم بحساب ACF(2) ACF(1)‏ 
PACF(1) ACF(3)‏ و PACF(2)‏ 
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خوارزمیات اد مت الأفاط الزمنية واا 


1۹- 59 سلسلة ماركوف ea‏ مارکوف ايلخفية 
Markov chain Models and Hidden Markov Models‏ 


يتم استخدام نماذج سلسلة ماركوف ونماذج ماركوف اللخفية على نطاق واسع لبناء 
النماذج» ولعمل الاستدلالات والاستنتاجات الخاصة بأنماط البيانات المتعاقية. في هذا الفصل, 
يتم وصف ماذج سلسلة ماركوف وفماذج ماركوف ال مخفية. وترد قاثمة من حزم البرمجيات 
لاستکشاف البيانات التي تدعم lel‏ والاستدلال من نماذج سلسلة ماركوف ونماذج 
مارکوف المخفية. ویتم إعطاء yas‏ التطبیقات من ماذج سلسلة ماركوف وتماذج ماركوف 
ا مخفية مع اطراجع 


1-14 نماذج سلسلة ماركوف: (Markov Chain Models)‏ 
يصف نموذج سلسلة ماركوف العملية العشوائية أو التصادفية ( stochastic‏ 
(process‏ بأوقات منفصلة (discrete-time)‏ ومن الدرجة الأولى (/rist-order)‏ لنظام 
له خاصية ماركوف واملتعلقة باحتمال أن Vo‏ النظام (system state)‏ في الوقت7 لا 
تعتمد على حالات النظام السابقة: المؤدية إلى حالة النظام في وقت 1 - 77 ولكن فقط على 

حالة النظام عند 7 n-‏ 


P(Sp|Sn—4,--»51) = P(Sp|Sn-1) for all n, (3-49)‏ 
حيث إن Sp‏ هي حالة النظام في الوقت قت N‏ ويوجد خاصية إضافية gògail‏ سلسلة ماركوف 
الساكنة (stationary)‏ وهي أن احتمال انتقال الحالة من الوقت 7 -7 لل:7 هو مستقل 


عن الوقت n‏ 


i) = PUI, ay‏ = يداز = مقاط 
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حيث إن PGI‏ هو احتمال أن يكون النظام في الحالة رفي وقت معين علما بان النظام كان 
في الحالة 1 في الوقت السابق. وللتبسيط فإننا نطلق على نموذج ماركوف الساكن بنموذج 
ماركوف في هذا الكتاب. 


إذا كان للنظام عدد محدود من الحالات. 5 ,... ,1ء فإنه يتم تعريف نموذج سلسلة ماركوف 
من خلال احتمالات انتقال أو تحول الحالةء PGi)‏ حيث إن: ٩‏ ,... ,7 < ف و ,[ < ژ 
کو 


AY 
2 | = 1, (۳-1۹) 
j=1 


واحتمالات الحالة الأوليق Pi)‏ حيث إن: 8 ,... ,7 = زد 
5 

> Po Si, (£-34) 

j=1 


Cue‏ إن Pll)‏ هو احتمال أن يكون النظام في الحالة i‏ في الوقت 1. يتم حساب الاحتمال 
المشترك لتسلسل معطى لحالات النظام Saken ..., Sa‏ في إطار زمني طوله K‏ ما في ذلك 
الأوقات المنفصلة (K - 1), ..., n‏ - ۸ على النحو التالي: 


1 


P(Sn-k+1 Sn) = P{Sn-K41) JÍ P(Sn-k+1lSn-x) (0-33) 
k=K-1 


يمكن pled‏ واستخلاص احتمالات انتقال الحالة. واحتمالات الحالة الأولية من مجموعة 
البيانات التدريبية أو الاستكشافية التي تحتوي على واحد أو AST‏ من تعاقب الحالات على 
النحو التالي: 


GT r ا لا ا ا‎ I LA AIOE A A ICT e LC Eh) 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ ETA 


خوار زمیات استكشاف ف الأماط a‏ منية سلطا 


حيث إن 
هو التكرار الذي يظهر فيه الانتقال من الحالة 1 إلى الحالة رف البيانات 
dug yl Nji‏ 
a‏ هومن التكرار الذي يظهر فيه الانتقال من الحالة i‏ إلى أي من الحالات» / 
-Å‏ 


N‏ هو S‏ ظهور الحالة ry j‏ فى البيانات التدريبية 
N‏ هو العدد الإجمالي للحالات في البيانات التدريبية 


يمكن استخدام نماذج سلسلة ماركوف للعرفة وتصنيف أنماط البيانات والمتعاقبة. لكل 
فئة من الفئات المستهدفة (target class)‏ ممكن استخدام البيانات المتعاقبة بالفئة 
الستهدفة لبناء نموذج ilulu‏ ماركوف عن طريق تعلم المصفوفة الاحتمالية لانتقال الحالة 
{state transition probability matrix)‏ والتوزيع الاحتمالي الميدني من البيانات 
التدريبية وفقًا للمعادلات 1-۱۹ و۷-۱۹. وهو ما يعنيء Lil‏ نحصل على نموذج سلسلة 
ماركوف لكل فثة من الفئات المستهدفة. إذا كان لدینا الفثات ابلستهدفة, © ,... ed,‏ فإننا 
نقوم clin‏ نماذج سلسلة ماركوفه My, ..., Me‏ لهذه الفثات المستهدفة. إذا كان لدينا 
سلسلة اختباریة. يتم حساب الاحتمال المشترك لهذه السلسلة باستخدام امعادلة 0-19 
تحت كل تموذج من نماذج سلسلة ماركوف. ويتم تصنيف السلسلة الاختيارية إلى الفئة 
الستهدفة لنموذج سلسلة ماركوف التي تعطي أعلى قيمة للاحتمال المشترك الخاص 
بالسلسلة الاختبارية. 

في تطبيقات نماذج سلسلة ماركوف بغرض الكشف عن الهجمات الإلكترونية (Ye ef‏ 
al, 20020, 2004)‏ يتم جمع بيانات التدقيق الحاسوبية. لحالات الاستخدام العادي, 
وحالات الهجمات الإلكترونية ابلتنوعة. على أجهزة الحاسوب. هناك ما مجموعه ۲۸۶ نوعا 


استکشاف البيانات: نظريات وخوارزميات وأمثلة tra‏ 


الجزه السادس 


من أنواع أحداث التدقيق (audit event)‏ في بیانات التدقیق. يتم اعتبار کل حدث من 
أحداث التدقيق واحدا من ۲۸۶ حالة نظام. ويتم اعتبار كل حالة من الحالات (الاستخدام 
العادي والهجمات المختلفة) كفئة من الفئات المستهدفة (target class)‏ يتم تعلم تموذج 
سلسلة ماركوف لفئة مستهدفة من البيانات التدريبية حسب حالة الفئة المستهدفة. لكل 
سلسلة اختبارية من أحداث التدقيق في (طار رصد معین. يتم حساب الاحتمال ابلشترك 
للسلسلة الاختبارية في إطار كل نموذج من نماذج سلسلة ماركوف. ويتم تصنيف السلسلة 
الاختبارية إلى أحد الحالات: (استخدام عاديء أو aol‏ أنواع الهجمات الإلكترونية) لتحديد 
ما إذا كان الهجوم موجودا. 


الشكل )1-48( 
الحالات وانتقال الحالات في المثال ۱-۱۹ 
الحالة 
sean DOOD 6۵ 0۵ 090 4۵ 0۵ 2 )۵ )۵ ۵ 49 0 69 9‏ 


State transition Ua تحول‎ )( )2( )3( OOOO OOOD )۵ )3 09 و4‎ )9 49 49 09 


المثال 4-44 


نظام له حالتان؛ سوء استخدام (M)‏ واستخدام (P) gole‏ تم رصد وجود سلسلة Mod‏ 
النظام لغرض استکشاف نموذج سلسلة مارکوف: 9۱7۷۱۷۱۳۲۳۱۲۸۸۵۴ قم ببناء 
نموذج سلسلة مارکوف باستخدام السلسلة الرصودة من حالات النظام. واحسب احتمال تولید 
سلسلة حالات النظام ammrmrr‏ بواسطة نموذج سلسلة مارکوف. ویبین الشکل ۱-۱۹ الحالات 
وانتقال الحالات في السلسلة الاستكشافية ابلرصودة لحالات النظام. باستخدام ٩-۱٩ Hole!‏ 
والسلسلة الاستكشافية لحالات النظام enmmrrrrrrmrrmrrmrmmr‏ فإننا نتعلم احتمالات 
انتقال الحالة التالیة: 


Nmm 
P(m|m) = FA 


Ne es meal 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ tt: 


خوار زمیات ا» استكشاف ف bu‏ الزملية والتسلسلية 


لأن انتقالات الحالة ١‏ و۲ و۱۸ هي تحول الحالة am  m‏ وتحول الحالات 3 ۲ ۳ ۱۰ 
MA ۳‏ ۱۹ هي التحول من الحالة m‏ إلى > أي حالة: 


N 
P(r|m) = = 


OY‏ انتقالات الحالة ۳ ۱۰ ۸۱۳ 1١‏ ۱۹9 هي تحول الحالة من m‏ ج ۸7 انتقالات الحالة 
AA ۱۱۰۱۲ ۸۰ ۰۲ ۲ ۸‏ و۱۹ هی التحول من الحالة m‏ إلى سب أي حالة: 


4 
11’ 


N 
P(m|r) = < = 
: 


A‏ ۷ ۷ ۰۱۲ ۱۶ ۱۵ و۱۷ هي التحول من الحالة ۶ سه أي حالة: 


٩۸۰۷ AOE‏ ۰۱۱ ۱۲ ۰۱۶ ۱۵ و۱۷ هي التحول من الحالة m‏ سه أي حالة. 


باستخدام المعادلة ۷-۱۹ السلسلة الاستکشافية للحالات 2۲۲۵۱9۵۳۱۱۳۱۵۵۵۳( 
فاننا نتعلم الاحتمالات اطبدئية للحالة التالیة: 
Nm 8‏ 
P(m) =—- ==>,‏ 
(m) N 20‏ 


OY‏ الحالات AY ,٠١ ۳ ۲ A‏ 35 ۸۸ ۱۹9 هي الحالة M‏ وهناك ۲۰ حالة في سلسلة 
الحالات: 


استكشاف البیانات: نظريات وخوار زميات وأمثلة 5١‏ 


الجزء السادس 


15:0 7 الك‎ A )زا‎ SALES ERO لظ‎ RES! GURY R مدلل‎ 2. aud 


N, 12 
P(r) TT 


OY‏ الحالات € NEAT ۰۱۱ ٩ ۸ ۷ AO‏ ۱۵ لالء ۲۰ هي الحالة , وهناك ۲۰ حالة في 
سلسلة الحالات. وبعد تعلم جمیع العلمات في موذج سلسلة مارکوفه نقوم بحساب 
احتمال أن النموذج يولد سلسلة الحالات: 77771۳9۲۲ 


P(mmrmrr) = P(s1)P(s2|51)P(S3|52)P (S453) P(Ss|S4)P (SelSs) 


= P(m)P(m|m)P(r|m)P(m|r)P(r|m)P(rIr) 
8۱ 3۱ (S\(4\ 56م‎ _ 
= (%5) )2()9( (E) G) (ج)‎ = ۵ 
:(Hidden Markov Models) نماذج ماركوف المخفية‎ ۲-۵۹ 
كل مرحلةء ولكن‎ gx OLLI! في تموذج ماركوف ا مخفي» يتم مراقبة ورصد ملحوظة‎ 
كل مرحلة فإنها غير مرصودة. على الرغم من عدم رصد الحالة 3 كل مرحلة,‎ as الحالة‎ 
فان تسلسل ملحوظات البيانات المرصودة هو نتيجة لتحولات الحالة وظهور ملحوظة بيانات‎ 
مرصودة من الحالات لدى وصولها في كل حالة. بالإضافة إلى الاحتمالات المبدئية للحالة‎ 
P(x|s) واحتمالات تحول الحالة. يتم أيضًا تعريف احتمال ظهور × من كل حالة ى‎ 
في نموذج ماركوف الخفي.‎ (emission probability) كاحتمال الظهور‎ 


> P(x|s) = 1. (A-393) 


يتم افتراض أن ملحوظات البيانات المرصودة مستقلة عن بعضها البعض, وأن احتمال ظهور 
× من كل حالة 5 لا يعتمد على الحالات الأخرى. 
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خوارزميات | استكشاف buin u‏ ی والتسلسلية 


ويتم استخدام نموذج ماركوف اللخفي لتحديد احتمال توليد سلسلة معطاه من الملحوظات 
المرصودة بدا,... ,/ئت في المراحلء 2۷ ,... ,1.بواسطة نموذج ماركوف المخفي. باستخدام أي 
طريقة من طرق المسار (Theodoridis and Koutroumbas, (path method)‏ 
)1999 يتم حساب هذا الاحتمال على النحو التالي: 


sN 
( Pans bay er دک( ربوك‎ =o Sm) 


izh 


= 20 P(sı,)P(xıls1,) Trejsi / Oy) 


n=2 


i‏ هو مؤشر لسلسلة الحالات اطمکنة, S1, cS yy‏ وهناك عدد SN‏ من 
سلاسل الحالات AS abl‏ بشكل كامل. 
P(S1)‏ هو الاحتمال الأولي للحالة» (,:_ير5 P (Snil‏ هو احتمال تحول الحالة 
Sn, )‏ | 007 هو احتمال الظهور 


الشكل (۲-۱۹) 
أي طريقة من طرق امسار وطريقة المسار الأفضل لنماذج ماركوف المخفية 


5© 

أي طريقة من طرق المسار ۱ 
Any path method‏ 0 

۱ طريقة أقضل مسار‎ 
le Best path method 


ببين الشکل ۲-۹ الراحل» ed, 2557 N‏ والحالات» AY‏ ع ۷ واطلحوظات اطرصودة 3 
اطراحل» XN‏ ,... ر اللازمة في حساب امعادلة 4-49 لتنفيذ الحسابات في المعادلة ٩-۱۹‏ 
نقوم بتعريف psn)‏ على أنه احتمال أن الحالة (Y)‏ يتم الوصول للحالة Sn‏ في المرحلة n‏ 


استكشاف البيانات: نظریات وخوارزمیات وأمثلة eer‏ 


الجزء السادس 


و(۲) تم إظهار الملحوظات اطرصودة Xn-f‏ ,. .لاقي اطراحل من 1 إلى 7-1 و(۳) تم إظهار 
db god‏ المرصودة Xn‏ من الحالة ,ركف المرحلة #. هكن حساب (Sn)‏ بشکل تكراري على 


النحو التالي: 
S‏ 
)44-+\( دروکا p(s,) = 3 p(Sn-1)P (SnlSn-1)‏ 
Sn-1=1‏ 
p(s) = P(sy)P(%4|s;). (14-39)‏ 


وهو ما يعني» p(Sn)‏ يمثل مجم وع احتمالات أن البدء من كل حالة ممكنة ,1 = Sn‏ 
S‏ ,... في المرحلة 7 - 7 مع xy, ..., ×«-١‏ قد ظهرت بالفعل» ونتحول إلى الحالة Sn‏ في 
المرحلة :7 التي تُظهر بنك كما هو موضح في الشكل ۲-۱۹. باستخدام المعادلات ٠١-19‏ و۱۹- 
١‏ هكن حساب المعادلة ٩-۱۹‏ على النحو التالي: 


Sra ر...‎ XN [S40 بوركم‎ JP (S1, Sn) = p(Sy). 0-9) 


Sy=1 


وبالتالي» باستخدام أي طريقة من طرق المسارء يتم استخدام المعادلات من ۱۰-۱۹ إلى -۱٩‏ 
۲ لحساب احتمال أن pods‏ نموذج ماركوف المخفي بتوليد سلسلة من املحوظات Bdge yh!‏ 
XN‏ ,... ,رد تبدأ أي طريقة من طرق المسار بحساب l, ..., SI م)6٫( por‏ = ري 
پاستخدام ابلعادلة ۱۱-۱۹ ثم یستخدم psi)‏ لحساب mar‏ (2)م l, ..., Cue‏ = رک 
S‏ باستخدام املعادلة ۱۰-۱۹ ویستمر ذلك على طول الطریق للحصول على جمیع PSN)‏ 
ل بل ,... ,1 = sv‏ والتي يتم استخدامها في التهاية في المعادلة ۱۳-۱۹ لاکمال العملية 
الحسابية. 


إن التكلفة الحاسوبية لإجراء طريقة من طرق المسار تُعتير مرتفعةء OY‏ كل سلاسل/ 
مسارات الحالة الممكنة التي عددها SY‏ من سلاسل أو مسارات الحالة من المرحلة ۱ إلى 
المرحلة N‏ تسهم في العملية الحسابية. بدا من استخدام المعادلة Óp ٩-۱٩‏ أفضل 
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طريقة مسار تستخدم العادلة ۱۳-۱٩‏ لحساب احتمال توليد سلسلة معطاة من 
املحوظات الرصودة, XN‏ و“ d, eN «hol hi 3 Xf,‏ بواسطة تموذج ماركوف ا مخفي: 


max, P(E [ رس ز‎ Sip مراک‎ s Siu) 
N 


= max, P(s,)P(xlsy) | | P(siglSins)PCnlSiq)- رمضم‎ 


n=2 


وهو ما يعني, بدلا من إجراء عملية على مستوى كل سلاسل الحالة الممكنة في المعادلة -۱٩‏ 
9 لأي طريقة من طرق المسار, O‏ أفضل طريقة مسار تستخدم الحد الأقصى لاحتمال توليد 
سلسلة من الملحوظات الرصودة XN‏ ,... ,ر من قبل أي سلسلة ممكنة للحالة من المرحلة 
١‏ إلى المرحلة N‏ نقوم بتعريف B(Sn)‏ على انها احتمال أن )١(‏ يتم الوصول إلى الحالة Sn‏ 
في المرحلة من خلال أفضل مسار» (Y)‏ تظهر الملحوظات المرصودة È ۲ ..., Xni‏ 
المراحل 1 إلى المرحلة 1 - ۸ و(۳) تظهر الملحوظة المرصودة Xn‏ من الحالة Sn‏ في اطرحلة 
wn‏ يمكن حساب 8)5 بشكل تكراري كما يلي باستخدام مبدأ بيلمان ( Bellman’s‏ 
(principle‏ (ثيودوريديس وکوترومباس» ۱۹۹۹): 


B(s,) = max} _ =1[B(sn-1)P(snlsn-1P(xn|sn)] O69) 
B(s,) = P(s1)P (x | (10-34) 


:۱۱-۱۹ يتم حساب ال معادلة ۱۳-۱۹ باستخدام المعادلة‎ 
N 
2 P(X, <<<, XNSi,) eo Sty P (Si ۰ Siy) = max$,=1B(sy). (41-44) 


وتُستخدم خوارزمية فيتربي (Viterbi, 1967) (Viterbi algorithm)‏ على نطاق ulg‏ 
لحساب التحويل اللوغاريتمي للمعادلات من ۱۳-۱۹ إلى 11-19. 


استكشاف البیانات: نظريات وخوارزميات وأمثلة Eto‏ 


أكثر من أي طريقة مسار أخرى GY‏ التكلفة الحاسوبية في أي مرحلة n‏ تستلزم فقط أفضل 
5 من المسارات. بالرغم من WS‏ بالمقارنة مع أي طريقة من طرق المسارء فإن أفضل طريقة 
مسار هي طريقة البديل الأمثل الفرعي تحساب احتمال توليد سلسلة معطاة من 
اللحوظات الرصودة XI, ..., XN‏ 3 الراحل, N‏ ل بواسطة نموذج ماركوف ا مخفي» 
فقط لأنه يتم استخدام أفضل مسار بدلا من کل المسارات الممكنة لتحدید احتمال رصد 
XN‏ ,... ,لتك علما بأن كل المسارات الممكنة في نموذج مارکوف المخفي من اللمکن أن تولّد 
سلسلة للملحوظات المرصودة. 


يتم استخدام ماذج ماركوف المخفية على نطاق واسع في التعرف على السرعة speed)‏ 
1 و29 والتعرف على الحروف المكتوبة بخط اليدء ومعالجة اللغة الطبيعية. 
والتعرف على تسلسل الحمض النوويء plag‏ جرا. من خلال تطبيق نماذج ماركوف المخفية 
في التعرف على الأرقام (digits)‏ اللكتوبة بخط اليد )2006 (Bishop,‏ وهي: 9 ,... ,0,1 
يتم بناء نموذج ماركوف المخفي لكل رقم. يتم اعتبار أن كل رقم لديه سلسلة من مسارات 
الخطء XN‏ ,... ,تت في امراحل N‏ ,... ,1. كل تموذج من نماذج ماركوف الخفية يكون لديه 
۲ من الحالات الكامنة (latent state)‏ كل منها يمكنه أن يظهر أو ينبعث din‏ خط مقطع 
ذو طول Cob‏ مع زاوية واحدة من ۱۱ زاوية ممكنة. وبالتاليء يمكن تحديد توزيع الظهور 
هذا مصفوفة 16 x‏ 16 مع احتمال ظهور أي من ال ۱۱ زاوية من كل من ال ۱۲ حالة. يتم 
تدريب نموذج ماركوف المخفي لكل رقم لتحديد التوزيع الأول للاحتمالات» ومصفوفة 
احتمال التحول, واحتمالات الظهور باستخدام £0 مثال من الأمثلة المكتوبة بخط اليد للأرقام. 
إذا كان لدينا رقم مكتوب بخط اليد للتعرف dle‏ يتم حساب احتمال أن يتم توليد الرقم 
المكتوب بخط اليد من قبل نموذج ماركوف ال مخفي لكل رقم. يتم تصنيف الأرقام المكتوبة 
بخط اليد على أنها الأرقام التي نموذج ماركوف المخفي لها ينتج أعلى احتمال لتوليد الأرقام 
الکتوب بخط اليد. 

وبالتالي» لتطبيق نماذج ماركوف المخفية على مشكلة التصنیف» يتم ely‏ نموذج ماركوف 
المخفي لكل فنة من الفئات المستهدفة. بإعطاء سلسلة ملحوظات مرصودة: يتم حساب 
احتمال توليد سلسلة الملحوظات الرصودة هذه من قبل كل نموذج من نماذج ماركوف 
املخفية باستخدام أي طريقة مسار أو أفضل طريقة مسار. يتم تصنيف سلسلة الملحوظات 


ون ی ی سس یچ 
1 استکشاف البیانات: نظریات وخوارزمیات وأمثلة 


خوار زميات اف ف La BUI‏ والتساسلية 


المرصودة المعطاة إلى الفئة المستهدفة التي نموذج ماركوف المخفي لها ينتج أعلى احتمال 
لتوليد سلسلة ال ملحوظات اطرصودة. 


:(Learning Hidden Markov Models) ماركوف المخفية‎ gS تعلم‎ ۲-۹ 


تتضمن مجموعة معلمات النموذج لنموذج ماركوف ابلخفي» A‏ احتمالات تحول 
الحالة. Pili)‏ والاحتمالات الأولية للحالة» PO)‏ واحتمالات الظهور. Pili‏ 


A = {P(li), ۳۵,۱۳۵ (1۷-1۹) 


هناك حاجة لتعلّم معلمات النموذج من مجموعة البيانات التدريبية التي 
تحتوي على سلسلة N‏ من الملحوظات المرصودة X=X1, ..., Xn‏ ها أن الحالات 
(states)‏ لا يمكن ملاحظتها مباشرةً فإنه لا يمكن استخدام المعادلات 7-19 ۷-۱۹9 طعرفة 
معلمات النموذج مثل احتمالات تحول الحالة» والاحتمالات الأولية للحالة. Jay‏ من ذلك 
يتم استخدام طريقة تضخيم التوقع (Expectation Maximization - EM)‏ لتقدير 
معلمات النموذج» التي تقوم بتضخيم احتمال الحصول على سلسلة الملحوظات المرصودة 
من النموذج الذي له معلمات نموذج مقذرة P(X|A)‏ الخطوات التالية توضح طريقة 
تضخيم التوقع (EM)‏ 

P(X | A) واستخدام هذه القيم لحساب‎ A إسناد القيم الأولية معلمات النموذج»‎ - ١ 

P(X | A) وحساب‎ A تقدير معلمات النموذج للحصول على‎ dole] -Y 

۳- إذا کان © > PIX | Â) - P(X | A)‏ لیکن 4 = 4 لأن 4 gud‏ من احتمال 
الحصول على سلسلة الملحوظات المرصودة من 4 آکثر من A‏ وانتقل إلى الخطوة ۲؛ 
وخلاف ذلك» توقف P(A) OY‏ هي أسوأ من أو تشابه P(A)‏ وخذ 4 على أنها 
مجموعة نهائية من معلمات النموذج. 

في الخطوة Y‏ © هو الحد (threshold)‏ المحدد مسبقًا لتحسين احتمال توليد سلسلة 
الملحوظات المرصودة X‏ من معلمات النموذج. 


استكشاف البیانات: نظريات وخوارزمیات وأمثلة Eey‏ 


الجزه اتاد 


يتم حساب A)‏ )۶ و(۴(4 في طريقة تضخیم التوقع (EM)‏ المذكورة أعلاه 
باستخدام المعادلة ۱۲-۱۹ لأي طريقة مسار, وتُستخدم المعادلة 11-8 للحصول على أفضل 
طريقة مسار. إذا كانت ملحوظة البيانات المرصودة منفصلةً (discrete)‏ وبالتالي سلسلة 
اللحوظات هي عضو في مجموعة محدودة را les‏ بیع استخدام طريقة 
إعادة التقدير باوم- ولش raced (Baum-Welch)‏ تقدير- معلمات النموذج في الخطوة 
۲ من طريقة تضخيم التوقع (EM)‏ المذكورة LT‏ يصف ثيودوريديس وکوترومباس, 
Theodoridis and Koutroumbas, 1999)‏ ( طريقة باوم- ولش لإعادة التقدير على 
النحو التالي. لتكن On (i J, X | A)‏ هي الاحتمال أن (۱) يمر المسار من خلال الحالة ¡ في 
ا مرحلة at‏ (۲) يمر امسار من خلال الحالة Gj‏ المرحلة اللاحقة 1 + +7 و(۳) ويقوم النموذج 
بتولید سلسلة املاحظات X‏ باستخدام نموذج المعلمات A‏ لتكن h(i, X |A)‏ هي احتمال 
أن (۱) ير امسار من خلال الحالة ‏ في المرحلة ot‏ و(۲) ويقوم النموذج بتوليد سلسلة 
اللحوظات X‏ باستخدام معلمات النموذج A‏ لتكن Oni)‏ هي الاحتمال أن يكون لدينا 
الملحوظات nei, ..., XW‏ ف اطراحل n + 1, ..., N‏ علما بأن المسار هر من خلال 7 في 
المرحلة #. بالنسبة لأي طريقة للمسان مکن حساب Onli)‏ بشكل تكراري ل - × = ۸ 
J, ..., l‏ على النحو التالي: 


5 
Wnt) = بركابرة,.. ,وبم)۳‎ = iA) = 2 On+1(Sn+1)P(Sn+1lSn = DP(n+1lSn+1) 


Sn+1=1 


)۱۸-۱۹( 
)بره‎ =1, i=1,..,8. (19-4) 


للحصول على أفضل طريقة للمسار» يمكن حساب (i)‏ ,ده بشكل تكراري ل ,1 - N‏ = ۸ 
1 ,...»علی النحو التالي: 


iA) = maX$,,.=1 n+ (Sn+1P (Snr |S, = OP pst Sno)‏ = پر پر<,.. Pnn‏ = (:) پرنه 


)۲۰-۱۹( 


EA‏ استکشاف البیانات: نظريات وخوارزمیات وأمثلة 


خوار: het‏ استكشاف الأنماط لزمن منية 2 والتساسلية 


XJA) = pn (uw, (4), )۲۲-۱۹(‏ ,)يرب 


حيث p(t) JS‏ على i)‏ = «5)م والتي يتم حسابها باستخدام العادلات ۱۰-۱۹ “Vig‏ 
۱ معلمة النموذج Pl)‏ هي العدد المتوقع من OL!‏ التي تحدث فیها الحالة ؛ في اطرحلة 
۱ إذا كان لدینا سلسلة املحوظات X‏ ومعلمات النموذج A‏ وهو ما يعني» P(i| X, A)‏ 
doles‏ النموذج POI)‏ هي عدد الرات التوقعة التي يحدث فیها التحول من الحالة i‏ 
للحالة of‏ إذا كان لدينا سلسلة الملحوظات X‏ ومعلمات النموذج A‏ وهو ما يعني» P(E,‏ 
A) / P(X, A)‏ ,ار يتم date]‏ تقدیر معلمات النموذج على النحو التالي: 


X14) pia,‏ ,)یم 


ee ا‎ )۲۳-۱۹( 
P(X|A) P(X|A) 


Pd) = ۳۱, A) = 


po) = ال‎ _ 2210:۱۵۵4 
P(i|X,A) — Enzi Pn (i, X|A)/P(XIA) 


_ 2-4 PaP 0۱۱ Xn+1L))@n+1G)/P(XIA) 
EATI Prion Ci) /P(XIA) 


_ Enzi i PaP GIDP Ons n0) )۲۶-۱۹( 
Nat Pn(Dwn(i) 


استكشاف البيانات: نظريات وخوارزمیات وأمثلة 6 


الجزء السادس 
Suh? OTA oso.‏ ۲:۳ 


Drei Pnax=v (i)/ P (x |A) = p Pnax,=v(i) 


P(x = زناه‎ e ADP FAD 


5 Zi Pnex=v li) Ongs, =v) 


EN و-‎ Pron )۲۵-۱۹( 
2 ۳۳ ()بم‎ if Xn =7 ۱ 
E í 0 ifx,#v ’ pais) 
(۳ pn (i) if Xn =v f 
Pnaxn= (Û) = l 0 ifx,#v’ )۳۷-۱۰( 
مد رسع بره‎ (i) = f 0 if x, spy’ )۲۸-۱۹( 


ونا هي أحد متجهات القیم المنفصلة التي قد تأخذها ند 


:۲-۱۹ JEL 
هكن لكل منهما أن ينتج‎ (r) نظام لديه حالتان: سوء الاستخدام )771( والاستخدام المنتظم‎ 
FFFHG ول ویتم رصد سلسلة من خمسة أحداٹ:‎ GF واحذا من ثلاثة أحداث:‎ 
تقدیر معلمات النموذج في‎ dole] باستخدام أي من طرق المسار, قم بتنفيذ تکرار واحد من‎ 
واستكشاف نموذج ماركوف مخفي من السلسلة‎ pled (EM) طريقة تضخیم التوقع‎ 
يتم إسناد القيم‎ (EM) من طريقة تضخيم التوقع‎ ١ الرصودة للأحداث. في الخطوة‎ 

العشوائية التالية معلمات النموذج بشكل ujana‏ 

P(m) = 0.4 P(r) = 6 

P(m|m) = 0.375 P(rlm) = 0.625 P(m|r) = 0.364 P(r|r) = 0.636 


to.‏ استكشاف البيانات: نظریات وخوارزميات وأمثلة 


igs‏ زميات استكشاف الأفاط الزمنية والتسلسلية 


P(F|m) = 0.7 P(G|m) = 0.1 P(H|m) = 2 
P(F|r) = 0.3 P(G)\r) = 0.4 P(H|r) = 0.4. 
باستخدام‎ P(X = FFFHG | A) نقوم بحساب‎ gigal باستخدام هذه المعلمات‎ 
و17-19 لأي طريقة مسار:‎ ۱۱-۱٩ ۰۱۰-۱۹ المعادلات‎ 
pn) = p(s, = m) = P(s = m)P (x = Fis, = m) = (0.4)(0.7) = 0.28 
Pi(r) = p(s, = r) = P(s, = r)P(x, = Fis, = r) = (0.6)(0.2) = 0.12 
2 
pa(m) = p(s, = m) = Y p(sDP(sa|s) P(x2ls2) 
رک‎ 21 
= p(s; = m)P(s2 = mls, = m)P(x, = F|s2 = m) 
+ p(s, = ۲(۴ )6 = ms, = r)P(x2 = F|s = m) 
= (0.28)(0.375)(0.7) + )0.12()0.364( )0.7( = 0.1060 
2 
p2(r) = وع)م‎ =r) = 0 p()s,)P(s2|s,) P(x2|s2) 
ری‎ 1 
= p(s; = m)P(s2 = r|s = m)P(xz = F|s2: = r) 
+ p(s, = r)P(S2 = r|s = 1)P (x2 = F|s2 =r) 
: = (0.28)(0.625)(0.3) + (0.12)(0.636){0.3) = 0.0754 


p3(m) = p(s = m) = 2 p(s,)P(s3|s2) (و5ى| و2‎ 


521 


= p(s, = m)P(sq = mls = (۳ (x3 = Fis, = m) 


استكشاف البيانات: نظريات وخوارزميات وأمثلة to)‏ 


الجزء السادس 


PARAST Tir BANS حا‎ PAFA ETA LD ری اس‎ HTL PRT RES LESTE gO کی ور ی با رام دک‎ TSN TST CP EMA TA TET EEES E و‎ A OM ETN لقن‎ 


+ p(s = 7r)P(s3 = m|sz = (۳) = F|s3 = m) 
= (0.1060}(0.375)(0.7) + (0.0754){0.364)(0.7) = 0.0470 


2 
)رم‎ = plss =r) = > a(s2)P(Sslsz) P(xalss) 


S2=1 
= p(s = m)P(s3 = r|52 = m)P (x3 = F|s3 = r) 

+ وع) ۳( = وی)م‎ = r|s2 = r)P(x3 = F|s3 = r) 
= (0.1060)(0.625)(0.2) + (0.0754)(0.636)(0.2) = 0.0228 


palm) = p(s, =m) = > P(S3)P(Ss4|s3) P (x4l54) 


$321 
= p(sg = m)P (s, = m|sg = m)P(x4 = H|s, = m) 
+ p(s = r)P(s4 = m|s3 = r}P(x, = معا لا‎ = m) 


= (0.0470)(0.375}(0.2) + (0.0228)(0.364)(0.2) = 0.0052 


2 
palr) = p(s, = 7) = (١ p(ss)P(salss) Pass) 


5 21 


= p(s3 = m)P(s, = ود|‎ = m)P(x, = H|s4 = r) 
+ p(s3 =r) P(s, = وو|”‎ = r)P (x4 = H|s4 =r) 


= (0.0470)(0.625)(0.4) + )0.0228()0.636()0.4( = 0.0176 


APEE St A ea lal IR LI ۰۰۰ LS a Pet r A ترج‎ 
استكشاف البیانات: نظريات وخوارزميات وأمثلة‎ toy 


خوارزميات استكشاف bul)‏ لزمنية والتسلسلية 


2 
ps(m) = p(ss = m) = 5 (يكاوى) © (,5)م‎ P(xs|55) 


54-1 
= p(s, = m)P(ss = m|s, = m) P(x, = G|sg = m) 
+ p(s4 = 1)P(Ss = mIsq = r)P (xs = G]ss =m) 


= (0.0052)(0.375)(0.1) + (0.0176)(0.364)(0.1) = 0.0008 


2 
pstr) = وهام‎ =r) = X, plsa)PCssls4) P(&s|ss) 


s4=1 
= p(s, = m)P(Ss = بوو|”‎ = m)P(xs = وو|6‎ = r) 
+ p(s, = r)P(s5 = r|s4 = r)P (xs = G|s5 = 1) 
= (0.0052)(0.625)(0.4) + (0.0176)(0.636)(0.4) = 0.0058 
2 
P(X = FFFHG|A) = 2 (و5)م‎ = p(ss = m)p(s, = r) = 0.0008 + 0.0058 


S$s=1 


0.0066 = 
في الخطوة ۲ من طريقة التوقع (EM)‏ نقوم باستخدام المعادلات ۲۳-۱۹ و0-19؟ لإعادة 
تقدير معلمات النموذج. نحتاج oi‏ إلى استخدام العادلات 18-19 و۱۹-۱۹ لحساب Onfi)‏ 
3,2,1 ,4 ,> ”, والتي يتم استخدامها في المعادلات من ۲۳-۱۹ إلى ۲۵-۱۹: 


@s(m)=1 os(r)=1 


2 
w4(m) = P(xs = G|sq = m, A) = > Ws (Ss)P{ss|s, = m) P(xs = G|ss} 


$5=1 


استكشاف البيانات: نظريات وخوارزميات وأمثلة tor‏ 


= ws(m)P(ss = mls, = m)P(xs = G|ss = m) 


+ ws(r)P(ss = r|s4 = m)P(x5 = Glss =r) 
= (1)(0.375)(0.1) + (1)(0.625)(0.4) = 0.2875 


2 
walr) = P(xs = Gs, =r,A)= È, معاوع) ۳(وعاوه‎ = r) PCs = Glss) 


5-1 
= وى)71(8) وده‎ = mls, = و2(‎ = G|ss = m) 
+ ws(r)P(s, = r|sq =1)P(x5 = Glss = r) 


= (1)(0.364)(0.1) + (1)(0.636)(0.4) = 0.2908 


wm) = P(x, = H, x5 = 6 وو|‎ = m, A) = > w4(s4)P(s4ls3 = m) P(x, = H|s,) 


= w4(m)P(s, = m|s3 = m)P(x4 = H|s4 = m) 
+ w4(r)P(s, = و۲5‎ = m) P(x, = His, =r) 
= (0.2875)(0.375)(0.2) + (0.2908)(0.625)(0.4) 


= 0.0943 


2 
walr) = P(x, = H, xs = 6 وداوى) 2 )54( 04 ` = )7,4 = وو|‎ = r) P(x, = H]s4) 


S421 


= w (m)P {s4 = m|s3 = r)P(x4 = H|s, = m) 


+ w4(7)P (s4 = r|s3 = 7) P(x, = Als, =r) 


tot‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارز زميات استكشاف ai bus‏ منية بة والدملسلية 


= (0.2875)(0.364)(0.2) + (0.2908)(0.636)(0.4) 
= 0.0949 
W2(m) = P(x; = F,x4 = H,xs = G|s, = m, A) 
2 
= ( وواوع)۳(وع) ین‎ = m) ۶6۵ = Fs) 
1 
= W3(m)P(s3 = m|sz = m)P(x3 = F|s3 = m) 
+ W3(r)P{s3 = r|s = m)P(xz = F|s3 =r) 
= (0,0943)(0.375)(0.7) + (0.0949) (0.625)(0.2) 


= 0.0366 
wlr) = P(x; = F,x4 = H, و‎ = G|s = r, A) 
2 
= Ý. ws(ss)PGsls2 = r) وم‎ = Flsa) 
51-1 
= w3(m)P(s3 = m|sz = r)P(x3 = F|s3 = m) 
+ w3(7)P(s3 = و۲|5‎ =r)P(x3 = Fls3 =r} 
= (0.0943)(0.364)(0.7) + (0.0949}(0.636)(0.2) 


= 0.0361 


استكشاف البيانات: نظريات وخوارزميات وأمثلة t00‏ 


الجزء السلا 


wm) = P(x, = F, x, = F, x4 = H, xs = G|s = m, A) 


2 
= » w(sz)P(Sz|s; = m) P(x = F|s2) 


So=1 

= w2(m)P(s2 = mls, = m)P(x2 = F|s2 = m) 
+ w (r)P(sz = r|s = m)P(xz, = F|s2 = r) 

= (0.0366)(0.375)(0.7) + (0.0361) (0.625)(0.2) 


= 0.0141 


wlr) = P(xz = ۴,2 = F, x4 = H,xs = Gls, = r, A) 


2 
= 0 W2(S2)P(S2|S4 = r) P(x, = F|s2) 


= w2(m)P(s2 = m|s = 1) P(x, = 
وک‎ = m) 
+ w2(r)P(s2 = r|s = r)P 0o = 
F|s2 = r) 
= (0.0366)(0.364)(0.7) + 
(0.0361)(0.636)(0.2) 


= 0.0139. 


نقوم الآن باستخدام المعادلات ۲۳-۱۹ و۲۵-۱۹ لإعادة تقدير معلمات النموذج: 


اس نس سر a I | A A‏ 
tort‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


_ pa(m)o(m) _ (0.28)(0.0141) _ 
Pon) = P(X = FFFHG\A) (0.0066) 7°? 


۳ Pi(r)o,(r) ۰. _ )0.12()0.0139( - 
ج‎ P(X =FFFHG}A) (0.0066) ` 007 


as1 Pn(m)P(m|m)P(Xp+ilM) Ons m) 


Pein) = رون(‎ Pn(m)w,(m) 


Gn) P(m|m) P(x, = F|m)w2(m)‏ و۵ 
P2(m)P(m|m)P(x3 = F|m)w3(m)‏ + 
p3(m)PGn|m) P(x, = H|m)w,(m)‏ + 
G]m)ws(m)‏ = وب p4Qm)PGnlm)‏ + | _ 
P1(m)w,(m)‏ 
+p ím) (m)‏ 
+p3(m)w3(m)‏ 
+p4(m)w4(m)‏ 
)0.1060)(0,.375)(0.7)(0.0943( + )0.0366( )0.28)(0.375)(0.7( 
10ers + (0.0052) (0.375)(0.1)(1)‏ | 5 
])0.2875( )0.0052( + )0.0470)(0.0943( + )0.1060)(0.0366( + )0.28)(0.0141([ ~ 


= 0.4742 


2 Zn1 Pn(m)P [7202 دب( دجيضت)‎ Cr) 
ان‎ 11 Paman Cm) 


استكشاف البيانات: نظريات وخوارزميات وأمثلة tav‏ 


الجزء السادس 


i PEE =F ۳۳۳۳ 
+ p2(m)P(r|lm) P(x = Flr)w3(r) 
+ p3(m)P(rlm) P(x, = H|r)w Cr) 
_L + p4(m)P(r|im)P(xs = G]lr)ws(r) 


04(m)w,(m) 
+P2(m)w2(m) 
+p3(m)w3(m) 
+p4(m)w,(m) 


(0.28)(0.625)(0.2}(0.0361) + (0.1060)(0.625)(0.2)(0.0949) 
+(0.0470)(0.625}(0.4)(0.2908) ++ +610 
=i. 28)(0.0141) + (0.1060)(0.0366) + (0.0470)(0.0943) + )0.0052()0.2875([ 


= 0.5262 


Pani) = Zit PaP Comin)? يبوت ف لمكت‎ 
ana Pn(r)w, (r) 
P(r) PGn|r) P(x, = F|m)w2(m) 
+ po(r)P(m|r)P(x3 = F]m)w3(m) 
+ p3(r)PGm|r) P(x, = H|m)w,4(n) 
_ | + Ppalr)POnlr) Ps = Glm)ws(m) 
رس( وم‎ (7) 
+p2(r)w2(r) 
وه()وم+‎ (r) 
+p4(r)w,(r) 
(0.12)(0.364)(0.7)(0.0366) + (0.0754)(0.364)(0.7)(0.0943) 
+(0.0228)(0.364)}(0.2)(0.2875) + (0.0176)(0.364)}(0.1)(1) 
=o. 12()0.0139( + (0.0754)(0.0361} + (0.0228)(0.0949) + (0.0176)(0.2908)] 


= 0.3469 


0۸ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زمیات اه استكشاف byi‏ الزمنية والتسلسلية 


Dhar Pn PC Ir) Penal Ons (7) 
E يرم‎ (Fan (7) 
pı(7)P(r|r)P(xa = Flr)w2(r) 
+ po(r)P(r|r)P(x3 = Flr)w3(r) 
+ p3(r)PGlr) P(x, = H|r)a,(r) 
_ | tps(r)P(rlr) PGs = Gir)ws(r) 
P1(7)w,(r) 
+p2(r)o2(r) 
+p3(r)w3(r) 
+p4(r)o4(r) 


(0.12)(0.636)(0.2)(0.0361) + (0.0754)(0.636)(0.2)(0.0949) 
+(0.0228) (0.636)(0.4)(0.2908) + (0.0176)(0.636)(0.4)(1) 
=O. 12)(0.0139) + (0.0754)(0.0361) + (0.0228)(0.0949) + (0.0176)(0.2908)] 


= 0.6533 


Drei Pnax,=F(M)Wngx, =F M) 


P(x = F|m) = ES pn (mon (n) 


Prax, =F MN) Orar =F M) + Prax, مد‎ (M2) مب يبرع وها‎ M) 
+ (370)مدييرعو771(0)م-ييووم‎ + 


+ Paar,=r(M) Waar, M) + Prax مد‎ CM) مد يبويع و0‎ M) 
=p (mwm) + وس (7) وم‎ m) + ونا (772) وم‎ m) + pmo n) + ps (mm) (m) 


5 (0.28)(0.0141) + (0.1060)(0.0366) + )0.0470()0.0943( + )0()0( + )0()0( 
= (0.12)(0,0141) + )0,1060()0.0366( + (0.0470)(0.0943) + )0.0052()0.2875( + (0.0058)(1) 


= 0.6269 


استكشاف البيانات: نظريات وخوارزميات وأمثلة £04 


الجزه السادس 


a Pn&x,=6 (m) On&x,=6 (m) 


oS =e kai pn(m)an (mr) 


Prax, =e مدربيية711(001)‎ M) + Pzaxg=g (Mazare M) + P3gxg=0 (MM) Osgx,=6 (r) + 


+ Paax,=¢ (MR) Orare (M) + Psaxg=gG (TJM saxg=g M) 
= py (ma, (m) + panom) + pamon) + paano, (m) + pmo (m) 


- )0()0( + (0)(0) + )0()0( + )0()0( + (0.0008) (1) 
` (0.28)(0.0141) + )0.1060()0.0366( + (0.0470)(0.0943) + (0.0052)(0.2875) + (0.0008)(1) 


= 0.0550 


Daca Pngx, =H M) Wngr, on M) 


P(x = H|m) = رد‎ Pn Don (m) 


Prax, =H(M)W1¢x,=H(M) + Prax, - بر‎ (PDO يبويع ج‎ = (M) 
+ P3ax,=H(M)W3ax,-4(m) + 


+ Pagy, =H OM) Oger, برد‎ (MY + بردوبريوو0‎ OR) WsaxosH M) 
= pno Gn) + وم‎ (m)az(m) + ps (mag) + pymn)a,(m) + وم‎ (mag (m) 


5 (0)(0) + (0)(0) + )0()0( + (0.0052)(0.2875) + (0)(0) 
= (0.28)(0.0141) + (0.1060)(0.0366) + (0.0470)(0.0943) + (0.0052)(0.2875) + (0.0008)(1) 


= 0.1027 


Dansk Pnaxa=F )7( رسع 0ه‎ =F (r) 


FE) SD 


Prax, =r (Trex, =F (7) + Prax, =F (7) O2ax,=F (FT) + Pagxg=F (F)O3axg=F (7) + 


1 استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوارزميات اس استكشاف الأماط الزمنية اس 


+ ae (r) + Psgxs=r(r)Osgx =r (r) 
~ pra, (r) + pz(r)ozlr) + P3(r)w3(7) + plr) lr) + ps(r)ws(r) 


(0.12)(0.0139) + (0.0754) (0.0361) + (0.0228)(0.0949) + (0)(0) + (0)(0) 
“©. 12()0.0139( + (0.0754)(0.0361) + (0.0228)(0.0949) + (0.0176)(0.2908) + (0.0058)(1) 


= 0.3751 


Jii Pnaxn=G (r) On&x,=6 (r) 


P(x = G|r) = وگ‎ Pn(r)}@,(r) 


Piax,=G )۲ دیهد + )7 مهو(‎ r) O2ax,=6(7) + مدربيعوم‎ ) ( Wsax,=6(7) + 
+ Paar, 67} Waex,-6(7) + Psax.-6(T)Wsax,-6(7) 
= par) (7) + وه( وم‎ )( + paro) + palrol) + Ps (r)@s5(7) 


2 )0()0( + (0)(0) + )0()0( + )0()0( + (0.0058) (1) 
~ (0.12){0.0139) + (0.0754)(0.0361) + (0.0228)(0.0949) + (0.0176)(0.2908) + (0.0058) (1) 


= 0.3320 


Daa Pnax,=H (r) Wn&x,=H (r) 


P(x = Hr) = وس‎ Pn (On (7) 


Prax, =H Wier, =H (7) + Prax يرد‎ )7( W2ex=H(1) + Pagxg=H (1) Wzax,oH(7) + 
+ Pagx,=H (Dag, =H (7) + ب-يعيووم‎ 1) Osax, = (7) 
~ peol) + prol) + peos) + polr) + psor) 


5 (0)(0) + (0)(0) + )0()0( + )0.0176()0.2908( + (0)(0) 
~ (0.12)(0.0139) + (0.0754)(0.0361) + )0.0228( )0.0949( + (0.0176)(0.2908) + )0.0058()1( 


= 0.2929 


استكشاف البيانات: نظريات وخوارزميات وأمثلة 6 


الجزه السادس 
TTS (A TREAS UATE‏ 


9- البرمجیات والتطبیقات (Software and Applications)‏ 
تقوم برمجية http: /htk.eng.cam.ac.uk) (Hidden Markov Model Tookit) HTK‏ 
بدعم نماذج ماركوف الخفية. قامت بي وزملائها (Ye, 2008; Ye at al, 2002c, 2004b)‏ بوصف 
تطبيق نماذج سلسلة ماركوف للكشف عن الهجوم الإلكتروني. وقام رابینر(1989 (Rabiner,‏ بمراجعة 

تطبيقات نماذج ماركوف iah‏ للتعرف على الكلام {speech recognition)‏ 


:(Exercises) التمارين‎ 


٠ 8‏ بالنظر إلى نموذج سلسلة ماركوف في امثال ۱-۱۹ حدد احتمال رصد سلسلة من 
حالات النظام: mmrmrrmyrrrrrrmmm‏ 


۹ نظام لديه l‏ سوء الاستخدام (:7) والاستخدام المنتظم dr)‏ يمكن لكل متها أن 
ينتج واحدًا من ثلاثة أحداث: H. 4 GF‏ لدی نموذج ماركوف املخفي للنظام 
احتمالات تحول الحالة الأوليةء واحتمالات تحول الحالة بالنظر إلى JEL‏ ۱-۱۹ 
واحتمالات ظهور الحالة على النحو التالي: 


P(F|m) ع‎ 0.1 P(G\m) = 0.3 P(H|m) = 6 

P(F|r) = 0.5 P(G|r) = 0.2 P(H|r) = 0.3. 

استخدم أي طريقة مسار لتحديد احتمال رصد سلسلة من الأحداث الخمسة: 
.GHFFH‏ 


۳۹ بالنظر إلى نموذج ماركوف المخفية في التمرين ۲-۱۹ قم باستخدام أفضل طريقة 
لتحديد مسار لتحديد احتمال رصد سلسلة من الأحداث الخمسة: .GHFFH‏ 


ew‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار صر زميات استكشاف ل اباط الزمنية والتسلسلية 


dough! تحليل‎ -Y 
Wavelet ne 


هناك العديد من الأشياء (objects)‏ التي لها سلوك دوري وبالتالي تُظهر سمة فريدة 
في مجال التكرار أو التردد. على سبيل EL!‏ الأصوات البشرية لها مجموعة من الترددات 
التي تختلف عن تلك التي لدى بعض الحيوانات. ان الأشياء أو الأجسام في الفضاء ا في 
ذلك الأرض تتحرك بتكرارات مختلفة. الأجسام الجديدة في الفضاء يمكن اكتشافها من خلال 
مراقبة تكرار حركتها الفريدة» والتي تختلف عن تلك الأجسام المعروفة. وبالتالي, فإن سمة 
التكرار أو التردد لأي جسم يمكن أن تكون مفيدة في تحديد الجسم أو الشيء. أن تحليل 
املویجات (Wavelet analysis)‏ هثل بيانات السلاسل الزمنية في مجال التكرار الزمني 
(time-frequency)‏ باستخدام خصائص البيانات على مر الزمن في تكرارات مختلفةه 
وبالتالي يسمح لنا بكشف أنماط البيانات الزمنية في تكرارات متنوعة. هناك العديد من 
أشكال الویجات. على سبيل (Haar) jlo Sh)‏ داوبيشيز (Daubecnies)‏ واشتقاق 
مويجة قوسشيان (DOG)‏ في هذا الفصلء نقوم باستخدام مويجة هار (Haar)‏ لشرح 
كيفية عمل تحليل المويجات لتحويل بيانات السلاسل الزمنية إلى بيانات في مجال التكرار 
الزمن. وترد قائمة من حزم البرمجيات التي تدعم تحليل المويجات. ويتم إعطاء بعض 
التطبيقات لتحليل المويجات مع ال لراجع. 


(Definition of Wavelet) dow ob) تعريف‎ ۱-۰ 


يتم تعريف شكل dough!‏ عن طريق دالتين: دالة القياس (Scaling Function)‏ 
(x)‏ ودالة المويجة dad y(x) (Wavelet Function)‏ دالة القياس dough‏ هار هي 
دالة خطوة )1999 LS (Boggess and Narcowich, 2001; Vidakovic,‏ هو gue‏ 
في الشكل ۱-۲۰ : 


1 if0<sx<1 


ea: (\-¥-) 
0 otherwise 


p(x) = { 


استكشاف البيانات: نظريات وخوارزميات وأمثلة ew‏ 


يتم تعريف دالة المويجة dough‏ هار (Haar wavelet)‏ باستخدام دالة القياس 


(Boggess and Narcowich, 2001; Vidakovic, 1999)‏ كما هو Que‏ في الشكل 
1-۰ 


< > بر > 10 1 


(x) = (2x) - 09: - 1) = مم ال‎ 
Y ۳ 9 =4 if 2 > بر‎ > 1 


الشکل ۱-۲۰ 
دالة القیاس ودالة المويجة dough‏ هار وآثار التمده (Dilation)‏ والتحویل (Shift)‏ 


خوار زات ! استكشاق الأماط pail‏ منية 4 والتسلساية 


وبائتاليء P‏ دالة المويجة dough‏ هار تمثل التغير في قيمة الدالة من 1 إلى 1- في النطاق 
[8D‏ إن الدالة (0)2 في املعادلة ۲-۲۰ هي دالة الخطوة بارتفاع مقدراه 1 لنطاق قیم 
× في ( ۳ = 0], كما في الشكل ۱-۲۰. وبشكل عام» تُعطي a doled!‏ قبل × في (ax)‏ م أثرا 
Gand‏ على نطاق قيم ند مما يعمل على توسيع أو تضبيق نطاق × بمقدار Ma‏ کما هو 
مبين في الشكل ۱-۲۰. دالة p (2x-1)‏ هي Lal‏ دالة خطوة بارتفاع مقدراه 1 لنطاق قيم 
ox‏ (1, 2 ]. وبشکل UB ale‏ اللعلمة b‏ في (x+ b)‏ © تُعطي أثرا تحولیا على نطاق قيم 
ه مها يحرك نطاق + زنسية لذ كما هو مبين في الشكل -¥-\. وبالتالي فان plar+ b)‏ 
تعرف دالة خطوة ذات ارتفاع مقدراه ١‏ لقيم × في نطاق [-b/a, (1-b)/a)‏ كما هو 
موضح obol‏ مع الأخذ في الاعتبار أن 0 < ۾ : 


0 > ax + > 1 
وب‎ 1-6 
— = > ۱ 
0 


۲-۰ تحويل dough!‏ لبيانات السلاسل الزمنية 
(Wavelet Transform of Time Series Data)‏ 
إذا كان لدینا بيانات سلسلة زمنية مع دالة كما هو موضح في الشكل (AV—Y¥+)‏ وعينة 
من سجلات بيانات عددها au‏ 0 2 0 0 6. 8. 6, 8 المأخوذة من هذه الدالة في نقاط 
1 2 3 4 5 6 7 7 


الوفت ت على أمحور السيني 0 = -, علی التواليء عند الفترات الزمنية a 6 6 6 S‏ 6 و او 
عند التكرار 8 كما رط و الشكل (bY—¥+)‏ 


a, i=0,1,..,2%-1, k=3 ۲ 


ao = 0,a, = 2,a, = 0, چه‎ = 2,a, = 6,a5 = 8, ag = 6, 07 
= §, 


استكشاف البيانات: نظريات وخوار زميات وأمثلة £10 


الجزء السادس 


VP 70 EEL OT THEE 7 


يمكن تقريب الدالة باستخدام due‏ سحلات البيانات Blog‏ القياس dough‏ هار على النحو 
التالي: 


f(x) = "وت‎ ayp(2*x - i) ۳۲۰ 
)۲۲۰( الشکل‎ 


dine‏ من بیانات سلسلة زمنية من dus (b) Mo (a)‏ من سجلات البیانات مأخوذة من الدالةء و(0) 
تقریب الدالة باستخدام دالة القیاس لمويجة هار 


F(x) ft) 


oO‏ لہ OT‏ & جب ثم سر 
۵ ده PUN N‏ دی يم Ce‏ 


0 x 0 
ah 1/8 2/8 3/8 4/8 5/8 6/8 7/8 1 5 1/8 2/8 3/8 4/8 5/8 6/8 7/8 1 
3 ) 


f@) 


—_— s-—— 


x 


Ce NW UA OO 


3 1/8 2/8 3/8 4/8 5/8 6/8 7/8 i 
c 


F(X) = agep(23x — 0) + 23)م ره‎ - 1) + a (2x — 2) + agp(22x - 3) + بدة2)هيه‎ - 4) 


+agp(23x — 5) + asọ (23x — 6) + (23-7)جبه‎ 


evn‏ استکشاف البيانات؛ نظريات وخوارزميات وأمثلة 


خوار زميات استكشاف لياط الزمنية والتسلسلية 


2p(23x - 3) + 6p)23 × — 4)‏ + )2 - عرة23)م0 + )1 — f(x) = 0(23x) + 2p(23x‏ 
+8—p(2°x — 5) + 6)23 — 6) + 8)23 - 7)‏ 
في المعادلة ۳-۲۰ فإن ai 9(24x-i)‏ تُعرف دالة خطوة بارتفاع مقداره :۵ لقيم × في 


النطاق (*1(/2 + ) ,*2/#]. ويبين الشكل (۲-۲۰ (C‏ تقريب الدالة باستخدام دوال الخطوة 
بارتفاع مقداره يساوي سجلات البيانات الثمانية. 


عند الأخذ في الاعتبار أول دالتي خطوة في المعادلة ۳-۲۰ (*2)م و( - × * 2)ص 
واللتان لهما القيمة 1 لقيم × في النطاقين )1/2% ,0] و(*2/2 ,*1/2] « على التوالی, يكون 


: لدينا العلاقات التالية‎ 
p(2*-1x) = p(2*x) + (۲۰-ع) )1 -ع*2)م‎ 
W(2*-1x) = p(2*x) + p(2*x - 1). (0-¥+) 


ج *2)م في المعادلة ۰ لديها القيمة 1 لقيم × في النطاق )"1/2 ,0( والتي يشمل 
)1/25 ,0[ و(2/21 ,*1/2[ معا. . كما تغطي الدالة X)‏ )س في المعادلة 0-۲۰ أيضًا النطاقين 
720 ,0[ و( 2/2 ,*1/2[ daa‏ ولكن يكون لها القيمة 1 عندما تكون قيم X‏ واقعة في 
)1/247 ,0] ويكون للدالة القيمة 1- عندما تكون قيم × واقعة في النطاق 7/24[ 
)2/2 يتم الحصول على صيغة معادلة مكافتة للمعادلات ۶-۲۰ و۵-۲۰ بإضافة ابلعادلات 
2-۰ ۵-۲۰ وبطرح اللعادلة ۵-۲۰ من العادلة ٤-۲١‏ : 


p(2*x) = Fleets) + w(2*-tx)] (1-۲۰) 


Pir- D = Flex) Rex), ° 


استكشاف البيانات: نظريات وخوار زميات وأمثلة ew‏ 


في الجانب الأيسر من المعادلات 1-۲۰ و۷-۲۰ ننظر إلى سجلات البيانات في الفترة الزمنية 
“7/2 أو التكرار “2. في الجانب الأيمن من المعادلات ۶-۲۰ و 6-۲۰ ننظر إلى سجلات البيانات 
في الفترة الزمنية الأكبر !"1/2 أو التكرار الأقل **2. 


وبشكل ple‏ عند الأخذ في الاعتبار دالتي الخطوة ف المعادلة ۳-۲۰ وهما: - ۵02۶ 
i)‏ و( - ۶ - (2x‏ واللتان لهما القيمة 1 عندما تكون قيم × واقعة في + ) [i/2*,‏ 
[fi + D/2*, (i + 2/2 1۱/29‏ على التواليء فإنه يكون لدينا العلاقات التالية: 
4 
Cae = 5) = م(2*x-i) + q(2*x i-1) Av)‏ ې 


(2/: - × 2)م في المعادلة ۸۲۰ يكون لها القيمة 1 عندما تكون قيم × واقعة في 
النطاق )"2)/2 + ) ,/1/2] أو )1/27 + 2/2 2/] بالفترة الزمنية !"1/2 Ó‏ الدالة 
(2/: - بأ “2) س في المعادلة ٩-۲۰‏ يكون لها القيمة 1 عندما تكون قيم ‏ واقعة في 
1/24 + ) ,“1/2] ويكون لها القيمة 1-عندماتكون قيم*واقعة 
في النطاق [*20/2 + [fi + 1(/24, (i‏ وهناك صيغة مكافئة للمعادلات ۸-۲۰ و١7-؟‏ 
وهي: 


p(2*x — i) = ale Cae -5) + با‎ (2-5) )۱۰-۲۰( 
p(2kx - ]-1( = fe Caa = >) 3 (2-1, 3 ۱۱-۲ 


في الجانب الأيسر من العادلات ۱۰-۲۰ و۱۱-۲۰ ننظر إلى سجلات البیانات في الفترة 
الزمنية *7/2 أو التکرار *2. في الجانب Ge‏ من العادلات ۱۰-۲۰ و۰۱۱-۲۰ ننظر إلى 
سجلات البیانات في الفترة الزمنية الأكبر 7/21 أو التکرار الأقل QF‏ 


مس لا L O‏ ل ات TT A | TS ES‏ 
ETA‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


خوار زميات استكشاف الأفاط الزمنية والتسلسلية 


تسمح لنا المعادلتان ۱۰-۲۰ و۱۱-۲۰ بتنفيذ تحويل ابلويجة لبيانات السلسة الزمنية أو 
بتمثيل دالتيهما في المعادلة ۳-۲۰ على شكل بيانات ذات تكرارات متنوعة كما هو موضح 
من خلال المثال ۱-۲۰ 
المثال ۱-۲۰ 

قم بتنقیل تحويل مويجة هار لبیانات ۱ لسلسلة الزمنية التالية: o‏ ف ۰۲ الى 
Sol‏ نقوم بتمثیل بیانات السلسلة الزمنية باستخدام دالة القیاس doygh‏ هار: 


26-1 
f(0 = Y axi)‏ 
t=0‏ 
2p(23x - 1)‏ + («ة2)م0 = f(x)‏ 
0p(23x — 2) + 2(23x — 3)‏ + 
6ọ(2?x — 4) + 8p(2?x — 5)‏ + 
.)7 — 80)23 + )6 — 23)م6 + 
ثم» نستخدم العادلتین ۱۰-۲۰ VW-¥eg‏ لتحويل الدالة المذكورة LET‏ عند تنفيذ تحويل 
امويجة للدالة المذكورة أعلاه. نستخدم itl=I 5.i=0‏ للزوج الأول من دوال القياس في 


الجانب الأهن من الدالة المذكورة ABT‏ و2 i=‏ و1=3+: للزوج الثاني و4-ز 1=59 i+‏ 
للزوج الثالث, i=63‏ و7< ]+ للزوج الرایع F‏ 


ده لس موه وه بل موه 
C)‏ مولع )ده 


لا + 
دب( سم موه لو مد تمه 


استکشاف البيانات: نظريات وخوارزميات وأمئلة 4 


1 6 6 1 6 6 
L بت م2‎ Zy = 24-1 مدا‎ m 
+6 | (2x 5) + (2 (| + 12 3 z) ۷2 x 2 


1 1 
f) = 0 xs lex) + p) + 2 x > [p(2?x) - p2?x)] 
+0x Flox - 1( + Y(2x—1)]+2x 00 ¬ 1) - y(2*x - 1([ 
+6 x > [o(2x — 2) + p(2?x - 2([ +8 x 2x — 2) - (22x - 2)] 


+6 x 2 [p(27x — 3) + (27x - 3)] + 8 x > 22ج‎ ~ 3( = (27x - 3([ 


f@x)= 00 3) نهم‎ + )0 2-2 3 5) W(2?x) 
+ (0x5 < + 2 x 2)02 - 1( + )0 2-2 5) Wx - 1) 
+ (6x ۷ 5) :22م‎ -2( + (6 «2-3 5) W(2*x - 2) 
+ )6 5+ 3 5) 0)22- 3)+(6x5-ax3 5 (22x — 3) 
f(x) = (22x) - p(2?x) 
+(2?x — 1) ¬ W(2?x - 1) 


+70(2?x — 2) — 1(2?x - 2) 
4+7 22)م‎ — 3) - 1(2?x — 3) 


f(x) = p(2?x) + p(22x ~ 1) + 70622 — 2) + 7p(2?x — 3) 
~4 (22x) — (22x — 1) - 1(22x — 2) - یلا1‎ 227 - 3). 


tye‏ استكشاف البيانات: نظريات وخوارزميات وأمثلة 


Weal Bee SESE 


خوارزميات استكشاف BUYI‏ الزمنية والتسلسلية 
Sea DN A as TV AR ITT ET‏ ل ةد ا LIS IT‏ بان 


نقوم باستخدام المعادلتين ۱۰-۲۰ و۱۱-۲۰ لتحويل السطر الأول من الدالة المذكورة LT‏ 


1 1 
f(x) = 2 [p(2*x) + y(2*x)] + zex) - w(2?x)] 
+7 Xx > [p(2?x — 1) + (21x — 1)] + 7 x Tlx — 1) - (21x - 1([ 
—(2?x) - Y(2?x - 1) - (22x ~ 2) - (27x - 3) 


f(x) = G + 5) (2x) + 6 + 5 (2x) + G + z) @(2x -1( + G - z) w(2x - 1) 


—(2?x) - Y(2?x - 1) - (22x - 2) - (27x — 3) 
f(x) = (2x) - 70622 - 1) 

+04(2x) + O(2x - 1) 

—1y(2?x) — (22x - 1) — (22x — 2) - (27x — 3). 


مره أخرى» نستخدم اللعادلتين ۱۰-۲۰ ۱۱-۲۰ لتحويل السطر الأول من الدالة المذكورة 
آنقا: 


F) = HEA + PO] + 7 x FLER) - W229] 
+00 )22( + O(2x — 1) - (22x) — W(2?x - 1) 
(22x — 2) — (22x - 3) 


۶6۵ = ) 2+ 2( +ة) + مه‎ ۷۵ 
+04(2x) + OW(2x - 1) - (22x) — عدة2)رل‎ - 1) 
—(22x — 2) - (22x — 3) 


استكشاف البيانات: نظريات وخوار زميات وأمثلة evi‏ 


aau الجزء‎ 


f(x) = 4e(x) - 3(x) + (2)يل0‎ + O(2x — 1) 
(م22) ولا‎ — (22x — 1) — (22x — 2) - p(2?x — 3). 


تعطى الدالة في المعادلة ۱۲-۲۰ النتيجة النهائية لتحويل مويجة هار. يوجد ثمانية حدود 
للدالة. كما أن لعينة البيانات الأصلية ثمانية سجلات بيانات. الحد J‏ (40/9 ممثل Blo‏ 
خطوة بارتفاع 4 ل × في النطاق (0,1/ ويعطي متوسط سجلات البيانات الأصليةء ۸ 2 O‏ 
2 6 8 6 8. الحد —3w(x) WI‏ له دالة P(X) dough!‏ وهو ما Ute‏ تغيير خطوة 
لقيمة الدالة من 1 إلى 1- أو تغيير خطوة بقيمة 2- كلما اتجهت قيم × من النصف الأول 
للنطاق )4 ,0/ إلى النصف الثاني للنطاق (1 ,72]. وبالتالي فان الحد الثانی» ()س3-. 
يكشف أن بيانات السلسلة الزمنية الأصلية لديها تغيير خطوة مقداره (3-) x‏ (2-) = 6 
من مجموعة التصف الأول لسجلات البيانات الأربعة إلى مجموعة النصف الثاني لسجلات 
البيانات الأربعة إذا كان متوسط سجلات البيانات الأربعة الأولى مساویا 1 ومتوسط سجلات 
البيانات الأربعة الأخيرة مساويا 7. الحد الثالثء (0۷)2. يمثل أن بيانات السلسلة الزمنية 
الأصلية ليس لديها أي تغيير خطوة من سجلات البيانات الأولى والثانية إلى سجلات البيانات 
الثالثة والرابعة إذا كان متوسط سجلات البيانات الأولى والثانية مساویا 1 ومتوسط سجلات 
البيانات الثالثة والرابعة مساویا 1. الحد الرابع. Oy(2x-1)‏ هثل أن بيانات السلسة 
الزمنية الأصلية ليس لديها أي تغيير خطوة من سجلات البيانات الخامسة والسادسة إلى 
سجلات البيانات السابعة والثامنة إذا بلغ متوسط سجلات البيانات الخامسة والسادسة 7 
ومتوسط سجلات البيانات السابعة والثامنة 7. تكشف الحدود الخامسة» والسادسة, 
السابعة» والثامنة للدالة في —y(2x~-2) —y(2?x-1) PPX) ۱۲-۲۰ Blh‏ 
و(22-3)/- Of‏ بيانات السلسلة الزمنية الأصلية لها تغيير خطوة (1-) x‏ (2-) = 2 من 
سجل البيانات الأول بالقيمة صفر إلى سجل البيانات الثاني بالقيمة 2 وتغيير الخطوة (1-) 
x‏ (2-) = 2 من سجل البيانات الثالث بالقيمة صفر إلى سجل البيانات الرابع بالقيمة 2 
وتغيير الخطوة (1-) x‏ (-؟) = 2 من سجل البيانات الخامس بالقيمة 6 إلى سجل البيانات 
السادس بالقيمة 8 وتغيير الخطوة (1-) x‏ (2-) = 2 من سجل البيانات السابع بالقيمة 6 
إلى سجل البيانات الثامن بالقيمة 8. وبالتالي» ينتج عن تحويل مويجة هار Glo‏ سجلات 
بيانات في بيانات السلسلة الزمنية الأصلية ثمانية حدود بمعامل دالة القياس (0م ÁS‏ 
عن a‏ البيانات الأصلية een‏ دالة å‏ المويجة w(x)‏ كاشقًا عن تغيير الخطوة في 


ewy‏ استکشاف البیاتات: نظریات وخوارزميات وأمثلة 


aye‏ زمیات اس استكفاف الأفاط الزمنية والتسلسلية 


البیانات الأصلية ۳ تكرار من مجموعة النصف الأول لسجلات البيانات الأربع إلى 
مجموعة النصف الثاني لسجلات البیانات الأربع» وتکشف معاملات دالتي المويجات Y(2x)‏ 
و( - ۷2 عن تغییرات الخطوة في البیانات الأصلية عند Hel‏ تکرار لكل سجلي بیانات» 
وتکشف معاملات دالة ایلویجات yx)‏ و( - »2۶)به (2 - (22x‏ و(3 - W(x‏ 
تغیبرات الخطوة في البیانات الأصلية عند Yel‏ تکرار لكل سجل بیانات . 

وبالتالي» فان تحویل مويجة هار لبیانات السلسلة الزمنية یسمح لنا بتحول بیانات 
السلسلة الزمنية إلى | البیانات في مجال التکرار الزمني» ورصد خصائص hë‏ بیانات المويجة 
(على سبيل JÈL‏ تغيير الخطوة dough‏ هار) في مجال التكرار الزمني. على سبيل JEL!‏ 
يكشف تحويل مويجة بيانات السلسلة الزمنية 0, 2 0 2, 6 B‏ 6, 8 في المعادلة ۱۳-۲۰ 
عن أن البيانات لديها المتوسط 4 وزيادة قدرها 6 في الخطوة في أربعة سجلات بيانات (عند 
أدنى تكرار لتغيير الخطوة)» وليس هناك أي تغيير خطوة عند كل سجلي بيانات (عند التكرار 
المتوسط لتغيير الخطوة) وزيادة قدرها 2 في الخطوة عند كل سجل بيانات (عند أعلى تكرار 
لتغيير الخطوة). بالإضافة إلى مويجة هار التي تلتقط be‏ البيانات لتغيير الخطوة, فهناك 
العديد من أشكال المويجات الأخرىء على سبيل JÈU‏ مويجة باول (Paul wavelet)‏ 
مويجة اشتقاق مويجة قوسشيان (DOG)‏ ومويجة داوبيشيز (Doubechtes wavelet)‏ 
ومويجة مورليت (Morlet wavelet)‏ كما هو موضح في الشكل ٠-۲١‏ والتي تلتقط أنواع 
أخرى من bla‏ البيانات. يتم تطوير العديد من أشكال المويجات بحيث يمكن اختيار شكل 
الويجة المناسبة لإعطاء توافق قريب لنمط البيانات لبيانات السلسلة الزمنية. على سبيل 
JEY‏ هكن استخدام مويجة داوبيشيز )1990 (Daubechies,‏ لإجراء تحويل المويجة 
لبيانات السلسلة الزمنية التي تظهر نمط بيانات بزيادة خطية أو نقصان خطي. أما مويجة 
oly‏ ومويجة اشتقاق مويجة قوسشیان» فيمكن استخدامهما لبيانات السلسلة الزمنية التي 
تظهر blal‏ بيانات مثل الموجة i (Wave- Like)‏ 
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الجزه السادس 
الشكل (۴-۲۰) 
توضيح بياني لمويجة باول» ومويجة (DOG)‏ اشتقاق مويجة قوسشيان» ومويجة داوبيشيزء ومويجة 
مورليت. (يي» إن» نظم الحاسوب والشبكة الآمنة: النمذجة والتحليل والتصمیم» ۲۰۰۸ الشكل AY‏ 
ص ۲۰۰ حقوق الطبع والنشر لشركة وايلي في سي اتش فيرلاغ وشركاه المحدودة) 
(Ye, N., Secure Computer and Network Systems:Modeling, Analysis -‏ 


and Design, 2008, Figure 11.2, p. 200. Copyright Wiley-VCH Verlag 
GmbH & Co. KGaA. Reproduced with permission) 


0.3 
0.0 
-0.3 
4 -2 0 2 4 
Paul wavelet 
(Ugh (مويجة‎ 
0.3 
0.0 
Bes —2 0 2 4 
DoG wavelet 
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خوارزميات استكشاف DLV‏ الزمنية والتسلسلية 
E bite tits ett th eae era] an, ee ee nl oF TEETE TANI AT‏ 


1 
0 
1- 
200 150 100 50 0 
Daubechies wavelet‏ 
مويجة (داوبيشير) 
1 
05 
0 
0.5- 
4 2 0 2- یت 


Morlet wavelet 


(مويجة مورليت) 
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الجزه العادين 


dough! بناء السلسلة الزمنية الزمن من معاملات‎ Sole} ۲-۰ 
(Reconstruction of Time Series Data from Wavelet Coefficients): 


امعادلتان ۸-۲۰ و4۲۰ والتي يتم إعادة كتابتهما obal‏ هكن استخدامهما Boley‏ بناء 
بيانات السلسلة الزمنية من معاملات المويجة : 
i) + p(2kx - i-1)‏ - برجم = :2-1( 7 


Y (2*1 3 = o(2*x - i) - ریم‎ -1-1( 


:۳-۲۰ JULI 
قم بإعادة بناء بيانات السلسلة الزمنية من معاملات المويجة في املعادلة ۱۲-۲۰ والتي‎ 
: يتم تكرارها أدناه‎ 
f(x) = 49(x) 
—3ip(x) 


+0(2x) + OW(2x — 1) 
—y(2?x) — (22x — 1) — w(2?x - 2) - w(2?x - 3) 


f(x) = 4 x [p(2?x) + (21x - 1)] 
-3 x [p(2'x) — (21x - 1([ 
+0 x [p(2?x) — p(2?x — 1)] + 0 x [p(2?x — 2) — p(2?x — 3)] 
(232)م]-‎ - p(23x - 1([ - يرة2)ي]‎ — 2( — (23x - 3([ - [p(23x - 4) - (23x - 5([ 
—[p(23x - 6) - p(2?x - 7([ 


f(x) = p(2x) + 7e(2x - 1) 
—(23x) + (23x — 1) - 2)ې‎ × — 2) + (23x — 3) — (23x - 4) 
+ بر23)م‎ - 5) — p(2?x — 6) + p(2?x — 7) 


ggg ggg r e Dn | 
استكشاف البيانات: نظريات وخوارزميات وأمثلة‎ 2۷۹ 


خوارز زميات استكشاف ف الأماط mal‏ منية ة والنسلسلية 


f(x) = [p(27x) + p — 1([ +7 x »ر22)ي + )2 -22)م]‎ - 3)] 
(232)م-‎ + (23x ~ 1) - p(23x — 2) + -23)م‎ 3) - p(23x — 4) + 23)ي‎ - 5) 


(23x - 6) + (2x = 7)‏ ما 


f(x) = @(2?x) + (23x - 1) + 7p(2?x — 2) + 70)22-3( 
-)23( + (23x — 1) - p(24x - 2( + برة2)م‎ - 3) - (27x - 4) + -«ة2)ب‎ 5) 


—(2°x — 6) + 2)م‎ × — 7) 


f(x) = [o(23x) + {23x - 1)] + «23)م]‎ - 2) + e(2?x - 3)] 
+7 x [p(23x - 4) + p(23x — 5([ + 7[p(23x - 6) + (23x — 7([ 
—p(23x) + (23x - 1) - (23x — 2) + e(23x - 3) - (23x - 4) 

+(23x — 5) - p(2?x — 6) + 2)م‎ × - 7( 


f(x) = 0)2 ×( + 2p(2?x - 1) 
+0@(2?x — 2) + 2(23x — 3) 
+60(2°x — 4) + 8@(2?x — 5) 
+6(23x — 6) + 8@(23x — 7). 


عند أخذ معاملات دالات القياس في الجانب الأمن من المعادلة الأخيرة» فإنه يعطينا العينة 
الأصلية لبيانات سلاسل الزمن؛ 4 8.686.202 
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ga e الجز‎ 


:(Software and Applications) البرمجيات والتطبيقات‎ ٤-١ 


يتم دعم تحليل المويجة في حزم البرمجيات با في ذلك برنامج ستاتيستيكا STATISTIC‏ 
(www.statistica.com)‏ وبرنامج ماتلاب (www.matworks.com) MATLAB‏ كما 
نوقش في الجزء ۰۲-۲۰ يمكن تطبيق تحول المويجة للكشف عن خصائص أنماط بيانات معينة 
في مجال تكرار زمني. على سبيل اممثال» عن طريق فحص موقع الزمن وتكرار معامل مويجة 
هار بالحجم ST‏ تم الکشف عن حدوث أكبر صعود لمؤشر بورصة نيويورك لفترة 7 سنوات 
من العام ۱۹۸۷-۱۹۸۱ من أول ۳ سنوات إلى الثلاث سنوات التالية (Boggess and‏ 
Narcowich, 2001)‏ مكن العثور على تطبيق dougo‏ هارء وپاول» ومويجة اشتقاق مويجة 
قوسشيان» ومويجة داوبيشيزء ومويجة مورليت .لبيانات الحاسوب والشبكات في يي (Ye,‏ 
Chapter 11)‏ ;2008. 

يعتبر تحويل امويجة مفيدًا أيضًا لكثير من الأنواع الأخرى من التطبیقات. ما في ذلك 
خفض الضوضاء وتصفيتهاء وضغط البيانات. والكشف عن الحافة (Boggess and‏ 
Narcowich, 2001)‏ وعادة ما يتم القيام بخفض الضوضاء وتصفيتها عن طريق إسناد 
القيمة صفر ملعاملات dough!‏ في نطاق تكرار معین, والذي ASS)‏ في الاعتبار لتمییز الضوضاء 
في بيئة معينة (علی سبيل اللثال» أعلى تكرار للضوضاء البيضاء أو نطاق معين من التكرارات 
للضوضاء المتولدة LIT‏ في قُمرة قيادة طائرة إذا كان صوت الطيار هو محل الاهتمام). ثم 
يتم استخدام معاملات المويجة تلك جنبا إلى جنب مع غيرها من معاملات المويجة الثابتة 
لإعادة slis‏ الإشارة بعد Hj]‏ الضوضاء. وعادة ما يتم ضغط البيانات data)‏ 
(compression‏ من خلال الإبقاء de‏ معاملات المويجة ذات اللقدار الكبير أو معاملات 
المويجة عند بعض التكرارات التي تعتبر أنها تمثل الإشارة. يتم استخدام معاملات المويجة 
هذه وغيرها من معاملات المويجة الأخرى GIS‏ القيمة صفر لاعادة بناء بيانات الإشارة. إذا 
تم نقل بيانات الإشارة من مكان إلى مكان آخرء وكلا المكانين يعرفان التكرارات المعطاة التي 
تحتوي على الإشارة. فهناك مجموعة صغيرة فقط من معاملات الويجة في التكرارات المعطاة 
تحتاج إلى أن تنتقل لتحقيق ضغط البيانات. يعتبر الكشف عن الحافة (edge detection)‏ 
بأنه البحث عن أكبر معاملات للمويجة واستخدام مواقع زمنهم وتكراراتهم في الكشف عن 
أكبر تغيير (تغييرات) أو انقطاعات في البيانات (على سبيل الثال» حافة حادة بين JB‏ خفيف 
إلى ظل داكن في صورة لكشف جسم ما كشخص في ردهة) ` 
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خوار زمیات | با buy‏ الزمنية والتسلسلية 


التمارین (Exercises)‏ 
۱-۰ قم بتنفیذ تحویل مويجة هار لبیانات السلسلة الزمنية 2.5 0.5 4.5 2.5 1- d‏ 
2 6 وشرح معنی کل معامل في نتيجة تحویل مويجة هار. 


۲-٠١‏ ينتج عن تحویل مويجة هار لبیانات سلسلة زمنية معينة معاملات اطویجهة التالیة: 


f(x) = 2.25)2( 
+0.25(x) 
—1s(2x) — 2(2x — 1) 


+4 (22x) + (22x — 1) — (22x — 2) 
— 2۱ )222/ - 3). 


قم بإعادة بناء بیانات السلسلة الزمنية الأصلية باستخدام هذه اللعاملات. 


۳-۰ بعد اسناد القيمة صفر للمعاملات التي تکون قیمها المطلقة أصغر من 1.5 في تحویل 
مويجة هار من التمرین ۲-۲۰ یکون لدينا معاملات المويجات التالية : 
f(x) = 2.25¢@(x)‏ 
(x)‏ 04+ 
(2x) - 24 (2x - 1)‏ 04+ 
(22x) + Ow (22x — 1) + 0 (22x - 2)‏ 04+ 
(2?x - 3).‏ 24 — 


قم بإعادة بناء بيانات السلسلة الزمنية باستخدام هذه العاملات. 
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الدكتور خالد بن ناصر آل حيان 


- حاصل على شهادة الدكتوراه في تخصص نظم العلومات من جامعة جنوب قلوريدا 
بمدينة Lab‏ ولاية فلوريداء الولايات المتحدة الأمريكية في عام VEVE‏ ه ۲۰۱۲ م. 

العمل الحالي: 

- مدير إدارة استشارات المعلومات والتقنية في معهد الإدارة العامة. 


الأنشطة العلمية والعملية: 


- له العديد من المؤلفات العلمية ما بين أوراق عمل علمية ومترجمات. إضافةٌ لهذا 
الکتاب» وتشمل على سبيل JEL‏ 


Alhayyan,K.," Participation in Information Markets Research: A New 
Conceptualization and Measurement,” Joumal of Systemics, Cybernetics 
and Informatics (ISCI), Vol. 13 - No. 2 - Sep 2015, , pp. 68-76. 


“Social Science Research; Principles, Methods, and Practices ترجمة كتاب‎ 


” - "بحوث العلوم الاجتماعية: المبادئ والمناهج والمارسات" للمؤلق د. 
أنول باتشيرجيء سنة النشر ١10‏ م, دار اليازوري للنشر والتوزیع EYV‏ 


صقحة. 


Alhayyan. K., Nuseibeh, H., "Trends in the study of Cloud Computing: 
Observations and Research Gaps", The 5th International Conference on 
Society and Information Technologies: ICSIT 2014, March 4-7 2014, 
Proceedings Vol. 1, pp. 38-43. 
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ترجمة مقال علمي بعنوان "الاتجاهات Lola)‏ 7 الإدارة العامة: 
ملاحظات تجريبية ونوعية من مجلة مراجعة الإدارة العامة ۲۰۰۰ — 

۹ للمولفین: جوز سي إن. رادشیلدرز. كوانغ - هون لي» مجلة الإدارة 
العامةء المجلد رقم Of‏ العدد ١ء‏ سنة النشر نوفمير ۲۰۱۳م. 

مراجعة ترجمة مقال yale‏ بعنوان "تصمیم نظم للتعلم الإلكتروني ذات 
وعي اجتماعي من خلال إدارة امعرفة للمولفین: ريشا شارما . هيما باناتي . 


بونام بيدي» ترجمة الدکتور/ عجلان بن محمد الشهري, مجلة الإدارة العامةء 


امجلد رقم OF‏ العدد ‏ سنة النشر أغسطس ۲۰۱۳م. 

Alhayyan,K., " Cloud Computing: Better Ways to Control its Services," 
The 3" International Multi-Conference on Complexity, Informatics and 
Cybernetics: IMCIC 2012, March 25" — 28 2012, Proceedings Vol. 1, pp. 
145-148. 
Alhayyan,K. , Bouayad, L., " A Data Mining Method for the Medical 
Relationship between Diagnoses and Procedures — Vermont Hospital 
2009," The 3™ International Multi-Conference on Complexity, Informatics and 

bemetics: IMCIC 2012, March 25" - 28 2012, Proceedings Vol. 1, pp. 


Alhayyan,K. , Collins, R., Jones, J. , Berndt, D., “Economic Culture and 
Prediction Markets," Journal of Systemics, Cybernetics and Informatics 
(JSCI), Vol. 9 ~ No. 6 - Dec 2011, , pp. 69-74. 


© يعمل bao‏ ومراجعا للعديد من الأعمال العلمية والإدارية داخل المملكة العربية 
السعودية. كجامعة ال ملك سعود. ووزارة الاعلام. ومعهد الإدارة العامة وهيئة الخبراء 
مجلس الوزراء وخارج ا مملكة العربية السعودية. كمؤتمرات IREPSs WMSCI‏ 

O‏ تصمیم الحقائب التدريبية في معهد الإدارة العامة في مجال تقنية امعلومات. 

© رئيس لجنة إعداد الخطة الاستراتيجية لتقنية املعلومات في معهد ال(دارة العامة في عام 
۰۵ص والتي هتد تنفیذها إلى عام alee‏ 

۵ منسق فریق (۳۱ع۱۶۳۷/۱ Ce‏ . في |عداد ples‏ اعتماد نشاط الاستشارات في معهد 
الإدارة العامة بالتنسیق مع الهيئة الوطنية للتقویم والاعتماد الأكادمي في وزارة التعلیم. 

© مبرمج ومحلل تطبیقات برمجية في وزارة الدفاع والطیران والمفتشية العامة خلال الفترة 
من ۱۹۹۰ إلى ۱۹۹۷ وكمبرمج ومحلل تطبیقات برمجية متعاون في دارة الملك 
عبدالعزپز عام ۰۱۹۹۸ وكميرمج ومحلل تطبیقات برمجية متعاون في الاتحاد السعودي 
للفروسية عام ۱۹۹۳م. 
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الدكتور صالح بن محمد السليم 


امؤهل العلمي: 


- حاصل على درجة الدكتوراه من جامعة واين ستيت بولاية میشیغان, الولايات المتحدة 
الأمريكيةء عام ۲۰۰۱م في مجال علوم الحاسب (الذكاء الصناعي). 


العمل الحالي: 
- أستاذ مشارك في كلية علوم الحاسب والعلومات. جامعة اطلك سعود. 


الأنشطة العلمية والعملية: 


شغل العديد من المناصب منها القبول والتسجيل في جامعة شقراء وشغل أيضاً منصب 
عميد تقنية اللعلومات والتعليم الإلكتروني في جامعة شقراء كان يعمل سابقاً رئيساً لقسم 
تقنية المعلومات في الجامعة العربية اللفتوحة. وقبل ذلك كان يعمل رئيساً لقسم تقنية 
الحاسب وعضو هيئة التدريس في الكلية التقنية بالرياض. 

الاهتمامات البحثية تشمل التالي: الحساب التطويري» تصنيف النصوص, نئم تخطيط 
موارد المؤسساتء إدارة إجراءات Sls‏ التعليم الالکتروني» والبرمجيات مفتوحة المصدر 


استكشاف البيانات: نظريات وخوارزميات وأمثلة ١‏ 9.۹ 


حقوق الطيع والنشر محفوظة لمعهد الإدارة العامة ولا يجوز 
اقتباس جزء من هذا الكتاب أو إعادة طبعه بأية صورة دون 


موافقة كتابية من المعهد إلا في حالات الافتباس القصير 


تصميم وإخراج وطباعة الؤدارة العامة للطباعة والنشر 
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هذا الکتاب 

"يقدم هذا الكتاب تفطية شاملة لأهم الوضوعات 2 ۾ مجال استكشاف البيانات. ويستطيع القارئ 
الحصول على نظرة شاملة 2 استكشاف اتبیانات بما ج ذلك المفاهيم الأساسيةء والسائل المهمة 2 هذا 
المجال؛ والكيفية التي يتم بها معالجة هذه المسائل. يتم د تقديم الكتاب بطريقة تمكن القارئ: الذي ليس 
لدیه خلفية معرقية كافية + استکشاف البیانات؛ i‏ من الفهم بیسر وسهولة . كما يُمِكنَ للقاری الاطلاع على 
العدید من الأشكال الرسومية والأمثلة البديهة 2 هذا الکتاب. وأجد نفسي مولعا بهده الأشكال والأمثلة 
لأنها تجعل من الفاهیم والخوارزمیات الأكثر تعقیدا أكثر سهولة للنهم." 


- زهینق (Zheng Zhao) slaj‏ معهد ساس (SAS)‏ كاري؛ کارو لاینا الشمالية: الولایات التحدة الأمريكية 


"يغطي هذا الکتاب بشکل کبیر كل خوار زمیات استکشاف البيانات الأساسية. كما أنه يغطي العدید من 
الوضوعات الفيدة والتي لا يتم التطرق لها 2 الکتب الاخری الخاصة باستکشاف البیانات؛ مثل 
موضوعات مخططات التحکم أحادية المتغير ومخططات التحکم متعددة التغیرات وتحلیل الويجة. 
ويتميز الكتاب بتوظيفه لأمثلة مفصلة توضح الاستخدام العملي لخوارزميات استكشاف البيانات. كما 
يستعرضن الكتاب قائمة 2 من الحزم البرمجية الملائمة لتطبيق معظم الخوارزميات التي تم تغطيتها ‏ 
الكتاب. ویعتبر هذا التوظيف للأمثلة والحزم البرمجية مفيدا إلى om‏ كبير لمارسي استكشاف 
البيانات. أوصي بقراءة هذا الكتاب لأي فرد مهتم باستكشاف البيانات." 


- جيبينق يي (Jieping Ye)‏ جامعة أريزونا الحكومية؛ تيمبي: آریزونا: الولايات المتحدة الأمريكية 


تتیح التقنيات الحديثة جمع كميات هائلة من البيانات 2 العديد من المجالات. وبالرغم من ذلك فان 
السرعة 2 اکتشاف معلومات ومعرفة مفيدة من هذه البيانات اقل بكثير من السرعة 2 جمع تلك 
البيانات. يستعرض کتاب. استكشاف البيانات: نظريات وخوارزميات وأمثلة: ويشرح مجموعة شاملة من 
خوارزميات استكشاف البيانات مستقاة من مجالات متنوعة لاستكشاف البيانات. كما يستعرض الکتاب 
التبريراتالنظرية والتفاصيل الإجرائية لخوارزمیات استكشاف البيانات. بما ‏ دنك تلك الخوارزميات 
الشائعة #الدراسات العلمية السابقة وتلك الخوارزميات ذات الصعوبة الكبيرة 2 الفهم: باستخدام عدة 
مجموعات من البيانات الصغيرة لشرح وتتبع خطوات تنفید كل خوارزمية. 
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